読者です 読者をやめる 読者になる 読者になる

DISTRICT 37

なにか

Pandasの基本操作

Python

Pandasの操作シリーズ 第二弾

前回 dragstar.hatenablog.com

データの基本操作

所謂基本統計量がとれる

www.mm-lab.jp

  • 最大値の取得
df.max()
  • 最小値の取得
df.min()
  • 平均値の取得
df.mean()
  • 中央値の取得
df.median()
  • 分散の取得
df.var()
df.std()
  • 合計値の取得
df.sum()
  • 尖度
df.kurt()
  • 歪度
df.skew()
  • 基本統計量
df.describe()

行の追加

行を追加する場合は列を合わせておくこと

df = df.append(new_df)

列の追加

列を追加する場合はデータ量を合わせておくこと

df['new_col'] = new_df

値の取得

  • 行単位で取得する。

戻り値はSeries

df.ix[0]

複数行を取得する。この場合はDataFrameが戻り値となる

df.ix[[0,2]]
  • 列単位で取得する。

戻り値はSeries

df['column_name']

複数列を取得。こちらもDataFrameとなる

df[['column_name','other_column']]

条件を満たすデータを選択

df[df['column_name'] > 30]

データの個数を数える

  • 列に出てきた値の個数を数える。

度数分布とかに便利

df['column'].value_counts()

単純に数を数える場合

df['column'].count()

df.count() #すべての列を対象にする
len(df) #単純にこれでもいい

欠損値の扱い

  • 欠損値を含むデータを削除
df.dropna()
  • NaNを埋める

指定した文字で埋める

df.fillna(0)