MeCabをインストール。

形態素解析プログラムMeCabMac OS XCentOSにインストールしてみた。日本語文書を形態素(最小意味単位)に分割して、品詞を判別してくれるプログラム。日本語をゴニョゴニョしてくれるわけですよ。

MeCabの公式ページはコチラ → MeCab|SourceForge

ここに書いてあるとおりに作業すれば、たぶん問題なくインストールできます。まずは必要なファイルをダウンロード。

解凍したら、インストール作業。解凍されたファイルのあるディレクトリに潜って...

libiconv
$ ./configure --prefix=/usr/local
$ make
$ make install

でlibiconvのインストール完了。installは、もちろん管理者権限で。

次にMeCab本体のインストール。文字コードはUTF-8しか使わないので、はじめからUTF-8専用で作ってしまいます。

MeCab
$ ./configure --enable-utf8-only
$ make
$ make check
$ make install

これでMeCab本体が /usr/local/bin に、ライブラリは /usr/local/lib にインストールされるはず。
make checkの段階で「ひとつのテストに失敗したよ」みたいなメッセージが表示されたりします。↓こんなやつ。
===================
1 of 3 tests failed
===================
この記事によると、放っておいても大丈夫みたい。うちでも、この状況のままでmecabは動作しています。

最後に辞書のインストール。こちらも文字コードはUTF-8にします。

IPA辞書
$ ./configure --with-charset=utf8
$ make
$ make install

辞書は /usr/local/lib/mecab/dic/ にインストールされます。
makeのときに「libiconv.soが見つからないよ」と言われたら、ライブラリへのパスが通っていないのが原因です。とりあえず環境変数を弄ってパスを追加しておく。

$ export LD_LIBRARY_PATH=/usr/local/lib

いちおうmake cleanしてからやり直し。これで無事にインストールできる筈。

さて。
$ which mecab
/usr/local/bin/mecab

うん、ちゃんとインストールされていますね。
テストしてみる。
$ mecab
これはテストです。
これ      名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は       助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト     名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
です      助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。       記号,句点,*,*,*,*,。,。,。
EOS


動きました。

出力フォーマットの制御については公式ページを参照しましょう。

カテゴリ: