shima_itlabの日記

TF-IDFを計算する

研究

MeCabの辞書を更新して、形態素解析のやり直し。

単語抽出

名詞・動詞・形容詞・副詞（非自立は除く）のみに限る
1文書＝1製品に対する全クチコミ

TF: ある文書中での出現回数　　→製品毎にcsvファイルで出力　all/*.csv
DF: ある単語の出現する文書数　→全体を1ファイルに出力 df.csv

TF-IDF計算のプログラム

それぞれの文書でTF-IDFを計算値、ある閾値を決定。閾値以下は0とみなす。
0の多い単語は足切りする予定。
N=2826

入力	all/*.csv（TF）、df.csv（DF)
出力	（単語,TF-IDF値）製品ごとにcsvファイル

df.csvを読み込んで、df[単語]=DF のハッシュを保持
all/id.csvを開く
1. 1行(1単語)ずつ読み込む（CSVモジュールでよい）
  - row[1]:単語、row[2]:出現回数(TF)
2. 全ての単語でTF-IDFを計算
  - TF * log(2826/DF)
  - td[word] = TF-IDF としてハッシュに保持
TF-IDF/id.csv として出力
- n,word,TF-IDF値\n
all内全てのcsvファイルについて上記の処理を行う