TF-IDF値で足切り

UNIXのコマンドで簡単にできそうな気もするんだけど…

  • ディレクトリ内のCSVファイルを読み込む
  • 1行ずつ読んで(CSVモジュール)、TF-IDF値を判定
    • row[2]が値。降順に並んでいる
    • row[2]>=閾値7.946617563
      • print
    • row[2]<=閾値7.946617563
      • breakして次のファイルへ(単語を削除)

なんか微妙に完璧な数値処理ができてない気がするんだけど…要調査。まぁ誤差の範囲内範囲内。

足切り前 1058095 1058095 28537776 total
足切り後   94118   94118  2613004 total

→to_iは文字列を整数にする!正しくはto_f(浮動小数点)