単語登録

擬態語である「つるんつるん」が「つるん」「つる」「ん」と解析されているのを発見。
というわけで、MeCabで単語登録。

MeCab:単語の追加方法

% /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u cosme.dic  -f euc-jp -t euc-jp cosme.csv
  • /home/foo/bar/foo.dic ができていることを確認
  • /usr/local/lib/mecab/dic/ipadic/dicrc もしくは /usr/local/etc/mecabrc に以下を追加
userdic = /home/foo/bar/foo.dic 
  • /usr/local/etc/mecabrc を編集する権限が無い場合は /usr/local/etc/mecabrc を ~/.mecabrc にコピーし, 上記のエントリを追加
  • userdic はCSVフォーマットで複数指定可能
 userdic = /home/foo/bar/foo.dic,/home/foo/bar2/usr.dic,/home/foo/bar3/bar.dic
エントリのフォーマット

エントリは, 以下のような CSV で追加します. 名詞などの活用しない語だと, 登録は簡単です.

工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ

左から,

表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音