Pandasの基本操作
Pandasの操作シリーズ 第二弾
データの基本操作
所謂基本統計量がとれる
- 最大値の取得
df.max()
- 最小値の取得
df.min()
- 平均値の取得
df.mean()
- 中央値の取得
df.median()
- 分散の取得
df.var()
- 標準偏差の取得
df.std()
- 合計値の取得
df.sum()
- 尖度
df.kurt()
- 歪度
df.skew()
- 基本統計量
df.describe()
行の追加
行を追加する場合は列を合わせておくこと
df = df.append(new_df)
列の追加
列を追加する場合はデータ量を合わせておくこと
df['new_col'] = new_df
値の取得
- 行単位で取得する。
戻り値はSeries
df.ix[0]
複数行を取得する。この場合はDataFrameが戻り値となる
df.ix[[0,2]]
- 列単位で取得する。
戻り値はSeries
df['column_name']
複数列を取得。こちらもDataFrameとなる
df[['column_name','other_column']]
条件を満たすデータを選択
df[df['column_name'] > 30]
データの個数を数える
- 列に出てきた値の個数を数える。
度数分布とかに便利
df['column'].value_counts()
単純に数を数える場合
df['column'].count() df.count() #すべての列を対象にする len(df) #単純にこれでもいい
欠損値の扱い
- 欠損値を含むデータを削除
df.dropna()
- NaNを埋める
指定した文字で埋める
df.fillna(0)