研究

Apriori algorithm

相関ルール 最小値以上の支持度と信頼度を持つすべてのルールX & Y ⇒ Z を見つける 支持度, s :トランザクションが{X, Y, Z}を含む確率 信頼度, c :{X, Y}を含むトランザクションがZ をも含む条件付確率 Aprioriの計算原理 頻出アイテム集合の任意の部分集…

シチュエーション?○○メイク抽出

GAL hitomi party CUTE あっさり あゆ あゆみ いつも おとな おとなしい おばさん お呼ばれ かずき かっこいい かわいい かわいらしい かわり がっちり きちっと きちんと きっちり きっと こい こってり さっと さっぱり さわやか系 ざっと しっかり じ…

ポーチの中身、見せて下さい

組み合わせを見つける なんの役に立つの? ポーチ 売り場組み合わせ(ブランドの組み合わせ?) メイクスタイルの提案 ナイーブにやるなら ユーザ×製品 クチコミをしているか否かだけ 5以上の評価をしているものだけ シチュエーションを加味したい 同じ人が…

グラフ考察

やっぱりマスカラがまとまってくっついてる。使い方同じだからねー。あとは化粧水系、洗顔フォームなど。ううむやはりこれで組み合わせが出ると思ったら甘いか…できれば異なるアイテムカテゴリの商品がくっついてほしいのだけれど。 不思議に思ったもの ファ…

考え方の参考メモ

http://www.oracle.co.jp/showcase/2006/circleksunkus/top.html 100個売れた どういう状況で100個中の90個が売れたのか 目線を変える 角度を変える

シチュエーション?目的?

○○メイクなど、「メイク」の前にある単語を抽出 1行ずつ読んで前の行をtmpに保存しておく… 擬態語抽出 シチュエーションをあらわす単語 パーティ、公の場、遊び、朝昼晩、春夏秋冬、イベント(結婚式、葬式、コント、レジャー、営業、主張、通勤)etc

ゼミログ

シチュエーションが大量にあるか? = シチュエーションに意味ある?●●メイクを探せ。イメージから探す。目的別メイクのやり方「シチュエーション集合の発見」アイテムのコンビネーション→概念束●●メイクという特集はさんざん雑誌で組まれているのだから、組…

アイディアしぼりだし

用途によって化粧品を選びたい。 乾燥するetc 就活メイク パーティメイク ナチュラルメイク 肌質が同じでも使い方が違う。 使われている言葉が似ている=同じ用途に使われている?年齢によるブランドの違いはあんまりない。 おなじ人でもシチュエーションに…

データ分類メモ

prdList ... 製品毎 usrList ... 年齢別 brdList ... ブランド別

続データ補完

存在しないデータには'nil'を代入

データ補完

商品の情報を補完 ユーザープロフィール 商品の値段

擬態語に注目しよう

そもそも品詞解析してみたら面白かったので、profileとかにかかわらずクチコミの文章だけで製品同士の関係が導ければ何か今までと違ったものが見えてくるんじゃないかと思って、品詞解析→類似度→グラフ化してみようと思ったのでした。 それなら、ただ馬鹿正…

こんなのがやりたかった

Laboo! 五感で探すクルマ選び ライフスタイルを提案。 ちょっと考えて思いつくようなものはどこかで誰かがやってるんですね。

続・類似度を計算する

先日から類似度を計算しているが、中身を見てみたらまた1以上の値が出てるよ!wcの結果 全部 : 1911945 1911945 45627140 total 1以上: 141077 141077 4442383 なんでだ…!! 後日談 アルゴリズムのミスですた。

cosine類似度を計算する

ディレクトリ内に存在するCSVファイルのリストを作っておく 読み込んで配列に保持 ディレクトリ内のCSVファイルを読み込む(配列からshift):A ハッシュにkey:単語とvalue:TF-IDF値を保持 w1^2 + w2^2 + ... + wn^2 を計算しておく 配列内残りのファイル名との…

TF-IDF値で足切り

UNIXのコマンドで簡単にできそうな気もするんだけど… ディレクトリ内のCSVファイルを読み込む 1行ずつ読んで(CSVモジュール)、TF-IDF値を判定 row[2]が値。降順に並んでいる row[2]>=閾値7.946617563 print row[2]閾値7.946617563 breakして次のファイルへ(…

ウィンドウショッピング?

Web上とリアルの違いは何か 探さなくても目に入ってくる、クリックしないと見れない 画像をぐるぐる自動で動かすようにすれば? 複数の商品を手にとって近付けて違いを比較できる 違いを表にして見せる。cf)プリンタ機能比較表 色の違いなんかは画像に頼るし…

TF-IDFを計算する

MeCabの辞書を更新して、形態素解析のやり直し。 単語抽出 名詞・動詞・形容詞・副詞(非自立は除く)のみに限る 1文書=1製品に対する全クチコミ TF ある文書中での出現回数 →製品毎にcsvファイルで出力 all/*.csv DF ある単語の出現する文書数 →全体を1フ…

分析方法を考える

製品同士の関係を可視化したい。 例↓ 客層は女性。 ウィンドウショッピングのようにふらふらと見て回れるのは面白いのではなかろーか。 +リンクが続いているとついその先を見てしまう性質。方法 一つの製品に対する全クチコミを一つの文書とする。 製品数=…