DISTRICT 37

なにか

MeCabとCaboChaとRMeCabでテキストマイニングの準備をする

データの解析をしてくれと依頼があったので資料を見たところ、どうも自然言語が多い。こりゃテキストマイニングだなという事で、環境の整備から行った。何はともあれ形態素解析エンジンであるMeCabが無いと日本語の解析はできない。そのMeCab係り受けの解析をおこなうCaboChaも入れてPythonで動かせるようになるところまで。

MeCabのインストール

MeCabはaptのリポジトリにもありそちらからもインストールができるのだが、後述のRMeCabの公式ページにソースからビルドしてインストールせよとあるので、それを行うことにした。

ちなみにaptならこれで済む。辞書データも入るのですぐに使える。

apt install MeCab

まずは公式からおソースをダウンロード

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

ソースと辞書をダウンロードしたらMeCabは下記コマンドでインストール完了。charsetをUTF-8にしておく

% tar zxfv mecab-X.X.tar.gz
% cd mecab-X.X
% ./configure --with-charset="utf8" 
% make
% make check
% sudo make install
% sudo ldconfig

続いて辞書データのインストール

% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
% mecab-ipadic-2.7.0-XXXX
% ./configure
% make
% sudo make install
% sudo ldconfig

これでおしまい。下記コマンドで開始

% MeCab

Cabochaのインストール

続いてCaboChaのインストール。これも公式からおソースをダウンロードしてmakeする。

CaoboCha: Yet Another Japanese Dependency Structure Analyzer

と、その前に前提条件としてCRF++を入れとけとある。公式はこちら

CRF++: Yet Another CRF toolkit

CRF++のインストール

% ./configure 
% make
% sudo make install
% sudo ldconfig

ようやくCaboChaのインストール。MeCab同様にcharsertをUTF8にしておく。UTF8にするというよりMeCabと合わせる事が大事。

% ./configure --with-charset=utf8
% make
% make check
% sudo make install
% sudo ldconfig

これでCaboChaが使える

% CaboCha

Pythonで使ってみる

MeCabおよびCaboChaのpythonドライバをインストールして使う。それぞれのソースのディレクトリにpythonというフォルダがあるので移動する。そこにsetup.pyが置いてあるのでそれを実行するだけでインストールが完了する。

% cd python
% sudo python setuo.py install

で、HelloWorldがこちら

  • CaboCha

RMeCabのインストール

続いてRMeCab。MeCabをRで使えるようになるというすぐれもので、これがあるとだいぶ捗る。公式は下記の通り。

RMeCab - RとLinuxと...

インストール自体は簡単で、Rから直接行える。

install.packages ("RMeCab", repos = "http://rmecab.jp/R")

とりあえずここまでで環境ができたといえる。これで満足してしまいそうだが、解析処理自体が本番だという事を忘れてはいけない。

Rによるテキストマイニング入門

Rによるテキストマイニング入門