DISTRICT 37

なにか

RMeCabFreqをPythonでやりたい

MeCabはRから入ったので、pythonでも同じように処理をしたいなと。ということでタイトルの通り

RMeCabFreqって何

pythonMeCabを扱っていて、こういうオブジェクトが欲しかった。

Term Info1 Info2 Freq
アメリカ 名詞 固有名詞 36
皆さん 名詞 一般 19
名詞 一般 18
国民 名詞 一般 12
名詞 一般 10

RのRMeCabというライブラリなら一撃でできるけど、pythonならば1から作らないとということになった。せっかくならばpythonだしpandas形式になってたらいいなということでできたのがコチラとなるが、なんか遅い。どこに原因があるのかなぁ、、、

トランプ大統領演説を分析する

で、サンプルとしてやったのが、トランプ大統領の就任演説の日本語版から。

www.huffingtonpost.jp

結果はpandasなので、こんな感じで抜き出せる。

mdf[(mdf.Info1 == '名詞') & (mdf.Info2.isin(['一般','固有名詞'])) & (mdf.Freq >= 10)].sort_values(by=['Freq'], ascending=False)

この結果が、最初に出した表で、最頻出した名詞はやはりアメリカだったという結果が得られる。大統領就任演説だけあって、自分の国と国民について語るというのは当然といえば当然。