2007-09-07 TF-IDFを計算する 研究 MeCabの辞書を更新して、形態素解析のやり直し。 単語抽出 名詞・動詞・形容詞・副詞(非自立は除く)のみに限る 1文書=1製品に対する全クチコミ TF ある文書中での出現回数 →製品毎にcsvファイルで出力 all/*.csv DF ある単語の出現する文書数 →全体を1ファイルに出力 df.csv TF-IDF計算のプログラム それぞれの文書でTF-IDFを計算値、ある閾値を決定。閾値以下は0とみなす。 0の多い単語は足切りする予定。 N=2826 入力 all/*.csv(TF)、df.csv(DF) 出力 (単語,TF-IDF値)製品ごとにcsvファイル df.csvを読み込んで、df[単語]=DF のハッシュを保持 all/id.csvを開く 1行(1単語)ずつ読み込む(CSVモジュールでよい) row[1]:単語、row[2]:出現回数(TF) 全ての単語でTF-IDFを計算 TF * log(2826/DF) td[word] = TF-IDF としてハッシュに保持 TF-IDF/id.csv として出力 n,word,TF-IDF値\n all内全てのcsvファイルについて上記の処理を行う