2007-09-10から1日間の記事一覧

cosine類似度を計算する

ディレクトリ内に存在するCSVファイルのリストを作っておく 読み込んで配列に保持 ディレクトリ内のCSVファイルを読み込む(配列からshift):A ハッシュにkey:単語とvalue:TF-IDF値を保持 w1^2 + w2^2 + ... + wn^2 を計算しておく 配列内残りのファイル名との…

TF-IDF値で足切り

UNIXのコマンドで簡単にできそうな気もするんだけど… ディレクトリ内のCSVファイルを読み込む 1行ずつ読んで(CSVモジュール)、TF-IDF値を判定 row[2]が値。降順に並んでいる row[2]>=閾値7.946617563 print row[2]閾値7.946617563 breakして次のファイルへ(…