UNIXのコマンドで簡単にできそうな気もするんだけど…
- ディレクトリ内のCSVファイルを読み込む
- 1行ずつ読んで(CSVモジュール)、TF-IDF値を判定
- row[2]が値。降順に並んでいる
- row[2]>=閾値7.946617563
- row[2]<=閾値7.946617563
なんか微妙に完璧な数値処理ができてない気がするんだけど…要調査。まぁ誤差の範囲内範囲内。
足切り前 1058095 1058095 28537776 total
足切り後 94118 94118 2613004 total
→to_iは文字列を整数にする!正しくはto_f(浮動小数点)