cosine類似度を計算する
- ディレクトリ内に存在するCSVファイルのリストを作っておく
- 読み込んで配列に保持
- ディレクトリ内のCSVファイルを読み込む(配列からshift):A
- ハッシュにkey:単語とvalue:TF-IDF値を保持
- w1^2 + w2^2 + ... + wn^2 を計算しておく
- 配列内残りのファイル名との類似度を計算:B
- id_list.each
- File CSV.open row[1]:単語、row[2]:TF-IDF値
- id_list.each
- 出力
- A.csvに以下の形式で出力
B1,類似度\n B2,類似度\n : :
- 値が0〜1にならず焦った。
- 計算式を間違えていた。
- 浮動小数点周りの処理が面倒(除算はできるだけまとめるべし)