cosine類似度を計算する

  • ディレクトリ内に存在するCSVファイルのリストを作っておく
    • 読み込んで配列に保持
  • ディレクトリ内のCSVファイルを読み込む(配列からshift):A
    • ハッシュにkey:単語とvalue:TF-IDF値を保持
    • w1^2 + w2^2 + ... + wn^2 を計算しておく
  • 配列内残りのファイル名との類似度を計算:B
    • id_list.each
      • File CSV.open row[1]:単語、row[2]:TF-IDF値
  • 出力
    • A.csvに以下の形式で出力
 B1,類似度\n 
 B2,類似度\n
  :
  :
  • 値が0〜1にならず焦った。
    • 計算式を間違えていた。
    • 浮動小数点周りの処理が面倒(除算はできるだけまとめるべし)