Pandasの基本操作

Pandasの操作シリーズ　第二弾

データの基本操作

所謂基本統計量がとれる

df.max()

df.min()

df.mean()

df.median()

df.var()

df.std()

df.sum()

df.kurt()

df.skew()

df.describe()

行を追加する場合は列を合わせておくこと

df = df.append(new_df)

列を追加する場合はデータ量を合わせておくこと

df['new_col'] = new_df

戻り値はSeries

df.ix[0]

複数行を取得する。この場合はDataFrameが戻り値となる

df.ix[[0,2]]

戻り値はSeries

df['column_name']

複数列を取得。こちらもDataFrameとなる

df[['column_name','other_column']]

df[df['column_name'] > 30]

度数分布とかに便利

df['column'].value_counts()

単純に数を数える場合

df['column'].count()

df.count() #すべての列を対象にする
len(df) #単純にこれでもいい

df.dropna()

指定した文字で埋める

df.fillna(0)