2007-09-01から1ヶ月間の記事一覧

日本語表示

ttfファイルをもらった。あとはパスを通せば大丈夫らしい。 # 一人で悩まないで早く訊けば良かった…

ゼミログ

シチュエーションが大量にあるか? = シチュエーションに意味ある?●●メイクを探せ。イメージから探す。目的別メイクのやり方「シチュエーション集合の発見」アイテムのコンビネーション→概念束●●メイクという特集はさんざん雑誌で組まれているのだから、組…

アイディアしぼりだし

用途によって化粧品を選びたい。 乾燥するetc 就活メイク パーティメイク ナチュラルメイク 肌質が同じでも使い方が違う。 使われている言葉が似ている=同じ用途に使われている?年齢によるブランドの違いはあんまりない。 おなじ人でもシチュエーションに…

データ分類メモ

prdList ... 製品毎 usrList ... 年齢別 brdList ... ブランド別

文字コード変換lv

lvで文字コード変換もできるだなんて! @IT:Unicodeのテキストファイルをほかの文字コードに変換するには $ lv -Ou8 file.txt.euc > file.txt.utf8 それでも化けるGraphvizのにほんご。どうすんべ。

続データ補完

存在しないデータには'nil'を代入

使い方

http://homepage3.nifty.com/kaku-chan/graphviz/ 無向グラフを描く sample1.dot 1 : graph sample { 2 : graph [size = "1, 2"]; 3 : a -- b; 4 : b -- c; 5 : c -- a; 6 : } $ dot -Tgif sample1.dot -o sample1.gif 文字コードはUTF-8のみ 日本語が化けま…

データ補完

商品の情報を補完 ユーザープロフィール 商品の値段

コマンドだけでも結構いろいろできる

sort -r -t , -k 2 cos.csv % foreach i ( fr_*.txt ) foreach? echo $i foreach? end fr_brand.txt fr_item.txt fr_product.txt fr_user.txt fgとbg

NaNとはなんぞや

cosine類似度計算中にたまに出てくるNaN。 NaN(Not a Number、非数、ナン) コンピュータにおいて、主に浮動小数点演算の結果として、不正なオペランドを与えられたために生じた結果を表す値またはシンボルである。http://ja.wikipedia.org/wiki/NaNcf)非正規…

検索条件を付けてファイルを検索

find 条件を指定することによって、ファイルやディレクトリを検索する。演算子で結ぶことによって複数の検索条件を使用できる。検索条件がなければ、すべてのファイル・ディレクトリを表示する。http://www.k-tanaka.net/unix/find.html 150分以内に修正され…

擬態語に注目しよう

そもそも品詞解析してみたら面白かったので、profileとかにかかわらずクチコミの文章だけで製品同士の関係が導ければ何か今までと違ったものが見えてくるんじゃないかと思って、品詞解析→類似度→グラフ化してみようと思ったのでした。 それなら、ただ馬鹿正…

クチコミサイトの急増

私の所属している研究室で扱っている分野はWebマイニングです。要は、Web上に大量のデータがあるからそれを何とか解析したら面白いことがわかるんじゃね?という研究です。 そして私はといえば、ここ半年クチコミ情報と格闘しています。未だに先が見えません…

こんなのがやりたかった

Laboo! 五感で探すクルマ選び ライフスタイルを提案。 ちょっと考えて思いつくようなものはどこかで誰かがやってるんですね。

続・類似度を計算する

先日から類似度を計算しているが、中身を見てみたらまた1以上の値が出てるよ!wcの結果 全部 : 1911945 1911945 45627140 total 1以上: 141077 141077 4442383 なんでだ…!! 後日談 アルゴリズムのミスですた。

cosine類似度を計算する

ディレクトリ内に存在するCSVファイルのリストを作っておく 読み込んで配列に保持 ディレクトリ内のCSVファイルを読み込む(配列からshift):A ハッシュにkey:単語とvalue:TF-IDF値を保持 w1^2 + w2^2 + ... + wn^2 を計算しておく 配列内残りのファイル名との…

TF-IDF値で足切り

UNIXのコマンドで簡単にできそうな気もするんだけど… ディレクトリ内のCSVファイルを読み込む 1行ずつ読んで(CSVモジュール)、TF-IDF値を判定 row[2]が値。降順に並んでいる row[2]>=閾値7.946617563 print row[2]閾値7.946617563 breakして次のファイルへ(…

ウィンドウショッピング?

Web上とリアルの違いは何か 探さなくても目に入ってくる、クリックしないと見れない 画像をぐるぐる自動で動かすようにすれば? 複数の商品を手にとって近付けて違いを比較できる 違いを表にして見せる。cf)プリンタ機能比較表 色の違いなんかは画像に頼るし…

はてなはじめました

やっぱり研究のことを書くならwikiらいくに書けるのは楽。色々試してたら時間が経ってしまった。 今夜中にTF-IDFの計算まで実行したかったけどいい加減眠いので寝るぽ。コーディングはまた明日。

単語登録

擬態語である「つるんつるん」が「つるん」「つる」「ん」と解析されているのを発見。 というわけで、MeCabで単語登録。 MeCab:単語の追加方法 適当なディレクトリに適当なCSVファイルを作成し単語情報を追加 辞書のコンパイル % /usr/local/libexec/mecab/m…

TF-IDFを計算する

MeCabの辞書を更新して、形態素解析のやり直し。 単語抽出 名詞・動詞・形容詞・副詞(非自立は除く)のみに限る 1文書=1製品に対する全クチコミ TF ある文書中での出現回数 →製品毎にcsvファイルで出力 all/*.csv DF ある単語の出現する文書数 →全体を1フ…

分析方法を考える

製品同士の関係を可視化したい。 例↓ 客層は女性。 ウィンドウショッピングのようにふらふらと見て回れるのは面白いのではなかろーか。 +リンクが続いているとついその先を見てしまう性質。方法 一つの製品に対する全クチコミを一つの文書とする。 製品数=…