2007-09-07から1日間の記事一覧

はてなはじめました

やっぱり研究のことを書くならwikiらいくに書けるのは楽。色々試してたら時間が経ってしまった。 今夜中にTF-IDFの計算まで実行したかったけどいい加減眠いので寝るぽ。コーディングはまた明日。

単語登録

擬態語である「つるんつるん」が「つるん」「つる」「ん」と解析されているのを発見。 というわけで、MeCabで単語登録。 MeCab:単語の追加方法 適当なディレクトリに適当なCSVファイルを作成し単語情報を追加 辞書のコンパイル % /usr/local/libexec/mecab/m…

TF-IDFを計算する

MeCabの辞書を更新して、形態素解析のやり直し。 単語抽出 名詞・動詞・形容詞・副詞(非自立は除く)のみに限る 1文書=1製品に対する全クチコミ TF ある文書中での出現回数 →製品毎にcsvファイルで出力 all/*.csv DF ある単語の出現する文書数 →全体を1フ…