FC2ブログ
--.--
--
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

10.10
Fri
だいたいhttps://mecab.googlecode.com/svn/trunk/mecab/doc/dic.htmlに書いてある事と変わらないのですがメモしておきます。
ユーザ辞書を追加する場合について書きます。

まず、辞書を追加しない場合

$ echo "大学の生協食堂" | mecab
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク
の 助詞,連体化,*,*,*,*,の,ノ,ノ
生 名詞,形容動詞語幹,*,*,*,*,生,ナマ,ナマ
協 名詞,接尾,一般,*,*,*,協,キョウ,キョー
食堂 名詞,一般,*,*,*,*,食堂,ショクドウ,ショクドー
EOS

ここで「生協」って別々にされてしまってますが、1つの名詞としてあつかって欲しいので辞書をつくります。

まずMeCabがどの辞書を使ってるのかを調べます

$ sudo update-alternatives --config mecab-dictionary
alternative mecab-dictionary (/var/lib/mecab/dic/debian を提供) には 3 個の選択肢があります。

選択肢 パス 優先度 状態
------------------------------------------------------------
* 0 /var/lib/mecab/dic/ipadic-utf8 80 自動モード
1 /var/lib/mecab/dic/ipadic 70 手動モード
2 /var/lib/mecab/dic/ipadic-utf8 80 手動モード
3 /var/lib/mecab/dic/juman 30 手動モード

僕の環境だとipadic-utf8を使ってる事がわかりますのでそれに合わせてコマンドを叩いていきます。(詳しくは上述のURL)

まず適当な場所にCSVファイルを作ります。中身はこんな感じの1行

生協,,,8000,名詞,一般,*,*,*,*,生協,セイキョウ,セイキョー


で、dicファイルをつくる

/usr/lib/mecab/mecab-dict-index -d /var/lib/mecab/dic/ipadic-utf8/ -u seikyou.dic -f utf8 -t utf8 seikyo.csv

これで seikyou.dic ファイルができるはずなので、そのファイルパスを/var/lib/mecab/dic/ipadic-utf8/dicrcの
userdicに指定してやっておわり

$ echo "大学の生協食堂" | mecab
大学 名詞,一般,*,*,*,*,大学,ダイガク,ダイガク
の 助詞,連体化,*,*,*,*,の,ノ,ノ
生協 名詞,一般,*,*,*,*,生協,セイキョウ,セイキョー
食堂 名詞,一般,*,*,*,*,食堂,ショクドウ,ショクドー
EOS


うまくいった。

スポンサーサイト

comment 0 trackback 0
トラックバックURL
http://telracsmoratori.blog.fc2.com/tb.php/197-b02b0244
トラックバック
コメント
管理者にだけ表示を許可する
 
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。