MeCabとCaboChaとRMeCabでテキストマイニングの準備をする
データの解析をしてくれと依頼があったので資料を見たところ、どうも自然言語が多い。こりゃテキストマイニングだなという事で、環境の整備から行った。何はともあれ形態素解析エンジンであるMeCabが無いと日本語の解析はできない。そのMeCabと係り受けの解析をおこなうCaboChaも入れてPythonで動かせるようになるところまで。
MeCabのインストール
MeCabはaptのリポジトリにもありそちらからもインストールができるのだが、後述のRMeCabの公式ページにソースからビルドしてインストールせよとあるので、それを行うことにした。
ちなみにaptならこれで済む。辞書データも入るのですぐに使える。
apt install MeCab
まずは公式からおソースをダウンロード
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
ソースと辞書をダウンロードしたらMeCabは下記コマンドでインストール完了。charsetをUTF-8にしておく
% tar zxfv mecab-X.X.tar.gz % cd mecab-X.X % ./configure --with-charset="utf8" % make % make check % sudo make install % sudo ldconfig
続いて辞書データのインストール
% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
% mecab-ipadic-2.7.0-XXXX
% ./configure
% make
% sudo make install
% sudo ldconfig
これでおしまい。下記コマンドで開始
% MeCab
Cabochaのインストール
続いてCaboChaのインストール。これも公式からおソースをダウンロードしてmakeする。
CaoboCha: Yet Another Japanese Dependency Structure Analyzer
と、その前に前提条件としてCRF++を入れとけとある。公式はこちら
CRF++: Yet Another CRF toolkit
CRF++のインストール
% ./configure
% make
% sudo make install
% sudo ldconfig
ようやくCaboChaのインストール。MeCab同様にcharsertをUTF8にしておく。UTF8にするというよりMeCabと合わせる事が大事。
% ./configure --with-charset=utf8 % make % make check % sudo make install % sudo ldconfig
これでCaboChaが使える
% CaboCha
Pythonで使ってみる
MeCabおよびCaboChaのpythonドライバをインストールして使う。それぞれのソースのディレクトリにpythonというフォルダがあるので移動する。そこにsetup.pyが置いてあるのでそれを実行するだけでインストールが完了する。
% cd python % sudo python setuo.py install
で、HelloWorldがこちら
- CaboCha
RMeCabのインストール
続いてRMeCab。MeCabをRで使えるようになるというすぐれもので、これがあるとだいぶ捗る。公式は下記の通り。
インストール自体は簡単で、Rから直接行える。
install.packages ("RMeCab", repos = "http://rmecab.jp/R")
とりあえずここまでで環境ができたといえる。これで満足してしまいそうだが、解析処理自体が本番だという事を忘れてはいけない。
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2008/12/16
- メディア: 単行本(ソフトカバー)
- 購入: 26人 クリック: 342回
- この商品を含むブログ (34件) を見る