単語登録
擬態語である「つるんつるん」が「つるん」「つる」「ん」と解析されているのを発見。
というわけで、MeCabで単語登録。
MeCab:単語の追加方法
% /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u cosme.dic -f euc-jp -t euc-jp cosme.csv
- /home/foo/bar/foo.dic ができていることを確認
- /usr/local/lib/mecab/dic/ipadic/dicrc もしくは /usr/local/etc/mecabrc に以下を追加
userdic = /home/foo/bar/foo.dic
- /usr/local/etc/mecabrc を編集する権限が無い場合は /usr/local/etc/mecabrc を ~/.mecabrc にコピーし, 上記のエントリを追加
- userdic はCSVフォーマットで複数指定可能
userdic = /home/foo/bar/foo.dic,/home/foo/bar2/usr.dic,/home/foo/bar3/bar.dic
エントリのフォーマット
エントリは, 以下のような CSV で追加します. 名詞などの活用しない語だと, 登録は簡単です.
工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ
左から,
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音