TF-IDFを計算する

MeCabの辞書を更新して、形態素解析のやり直し。

単語抽出

  • 名詞・動詞・形容詞・副詞(非自立は除く)のみに限る
  • 1文書=1製品に対する全クチコミ
TF
ある文書中での出現回数  →製品毎にcsvファイルで出力 all/*.csv
DF
ある単語の出現する文書数 →全体を1ファイルに出力 df.csv

TF-IDF計算のプログラム

http://chalow.net/image/051011-tfidf.png
それぞれの文書でTF-IDFを計算値、ある閾値を決定。閾値以下は0とみなす。
0の多い単語は足切りする予定。
N=2826

入力 all/*.csv(TF)、df.csv(DF)
出力 (単語,TF-IDF値)製品ごとにcsvファイル
  1. df.csvを読み込んで、df[単語]=DF のハッシュを保持
  2. all/id.csvを開く
    1. 1行(1単語)ずつ読み込む(CSVモジュールでよい)
      • row[1]:単語、row[2]:出現回数(TF)
    2. 全ての単語でTF-IDFを計算
      • TF * log(2826/DF)
      • td[word] = TF-IDF としてハッシュに保持
  3. TF-IDF/id.csv として出力
    • n,word,TF-IDF値\n
  4. all内全てのcsvファイルについて上記の処理を行う