RMeCabFreqをPythonでやりたい

MeCabはRから入ったので、pythonでも同じように処理をしたいなと。ということでタイトルの通り

RMeCabFreqって何

pythonでMeCabを扱っていて、こういうオブジェクトが欲しかった。

Term	Info1	Info2	Freq
アメリカ	名詞	固有名詞	36
皆さん	名詞	一般	19
国	名詞	一般	18
国民	名詞	一般	12
人	名詞	一般	10

RのRMeCabというライブラリなら一撃でできるけど、pythonならば１から作らないとということになった。せっかくならばpythonだしpandas形式になってたらいいなということでできたのがコチラとなるが、なんか遅い。どこに原因があるのかなぁ、、、

で、サンプルとしてやったのが、トランプ大統領の就任演説の日本語版から。

結果はpandasなので、こんな感じで抜き出せる。

mdf[(mdf.Info1 == '名詞') & (mdf.Info2.isin(['一般','固有名詞'])) & (mdf.Freq >= 10)].sort_values(by=['Freq'], ascending=False)

この結果が、最初に出した表で、最頻出した名詞はやはりアメリカだったという結果が得られる。大統領就任演説だけあって、自分の国と国民について語るというのは当然といえば当然。