RMeCabFreqをPythonでやりたい
MeCabはRから入ったので、pythonでも同じように処理をしたいなと。ということでタイトルの通り
RMeCabFreqって何
pythonでMeCabを扱っていて、こういうオブジェクトが欲しかった。
Term | Info1 | Info2 | Freq |
---|---|---|---|
アメリカ | 名詞 | 固有名詞 | 36 |
皆さん | 名詞 | 一般 | 19 |
国 | 名詞 | 一般 | 18 |
国民 | 名詞 | 一般 | 12 |
人 | 名詞 | 一般 | 10 |
RのRMeCabというライブラリなら一撃でできるけど、pythonならば1から作らないとということになった。せっかくならばpythonだしpandas形式になってたらいいなということでできたのがコチラとなるが、なんか遅い。どこに原因があるのかなぁ、、、
トランプ大統領演説を分析する
で、サンプルとしてやったのが、トランプ大統領の就任演説の日本語版から。
結果はpandasなので、こんな感じで抜き出せる。
mdf[(mdf.Info1 == '名詞') & (mdf.Info2.isin(['一般','固有名詞'])) & (mdf.Freq >= 10)].sort_values(by=['Freq'], ascending=False)
この結果が、最初に出した表で、最頻出した名詞はやはりアメリカだったという結果が得られる。大統領就任演説だけあって、自分の国と国民について語るというのは当然といえば当然。