研究

ゼミログ

評価 どこかのノードを見てそれ通り分類ができているか確認 人の文章の単語で分類がちゃんとできたか? 中身見る 検索システムを早く完成させるべし 関連研究調査 'オフィス'だけでやってみた グラフが面白! まず第一段階を指定して,そこから概念束作った…

今後の方針

「オフィス」をシチュエーションとみて,それが含まれる製品だけでこれまでとおなじことをやってみる ucwom/以下から"オフィス"を含むファイルを探索 別フォルダにまとめて保存→office.rb TFを計算→all_tf1.rb TF-IDFを計算する.DFは全部でいい. 概念束の…

系統分類

○○メイク,○○系,○○向け,○○用,○○っぽいなどで系統を抽出 ○○は↑の用法で用いられていなくても系統の意味にとってよい(と思う) 単語を人手でチェック カテゴリに特有の単語はカット 上記分類でアイテムを表示させた概念束↓ ○○を表示させた概念束↓ そのアイ…

ToDo

カテゴリ毎の頻出単語を出す ucwom/freq/カテゴリID.fr 新DFでcosine類似度出してみる?

論文構成

はじめに インターネットの普及 CGM 情報過負荷 検索 推薦 本研究の目的 扱うデータ クチコミとは クチコミサイト@cosme 収集した@cosmeのクチコミデータ データ分析手法 ユーザーがクチコミをしたかしてないかのデータを使う 頻出アイテム集合 概念束の属性…

○○メイク=○○系?

メイクの系統を表す言葉として,「○○系」とかも採用してよいんじゃないか. 色を表している場合が多い.ex.青系,ピンク系,ブラウン系etc 同じ色が同じアイテム集合に… それもいんだけど(目的同じだから),シャドウもチークもリップもピンクだったら面白…

先行/関連研究調査

この3連休で論文を書くぞ!ということで.以下リンク先はPDF. Web ネットワークにおけるクチコミ効果 2005年.たぶん@cosmeをデータとして使っている.掲示板への書き込みとその影響の広がり,効果. 相互作用性に着目したクチコミ研究の系譜と展望: 関係性…

matファイルを転置するtmatrix.rbを作った

行列操作がだいぶ用意されているので楽だった. プログラミング言語 Ruby リファレンスマニュアル Matrix - mumoshu.log概念束プログラムがバージョンアップしたので不要になりました

○○メイクで概念束

# ./make_mkcl0.rb # sort make.mat | uniq > tmp # ruby atr.rb tmp > make.atr # ./make_mkcl.rb > make1.mat

できた概念束を受けて

今のままだとなんのこっちゃ分からないので,カテゴリ毎に記号化して表示 欲しいアイテムセットが出るか? カテゴリ毎に分けられてしまっているので,DFを求める際の文書集合をカテゴリ毎にする 現状は属性を上限10個に制限しているのでその制限を解除 ユー…

カテゴリ毎に概念束を作る

概念束が作れるようになったので,以前やろうとしたカテゴリ毎の概念束も作ってみた.割ときれいにできた例を掲載. 53:入浴剤・バスグッズ 51:ネイルケア・ネイルグッズ 24:リムーバー

やっとこさ概念束お目見え

行末に空白が入ってたのがいけなかったのかもしれないという結論.形式はかなりストリクトなものが求められるので注意すべし. perl -pe 's/rankdir=\"LR\";(.*)Osaka(.*)/$1\/usr\/home\/shima\/gothic\.ttf$2/' file2 行をオブジェクト,列をアトリビュー…

システムつくるお

げじせんせいのお告げ 概念のオブジェクト集合はわかってるのでアトリビュート集合は求める 隣接する概念の差分を求める 隣接する概念をファイルに書き出す オブジェクトの集合からセットを作る 検索用にどのオブジェトがどの概念にあるか, どの属性がどの概…

人でもやってみようぜ

ユーザごとの形態素解析結果→uwom/ all_tf.rb→TF値→u-tf/(クチコミ10件以上のみ) この場合のDF値ファイル→u-df.csv(df.rb) tf-idf.rb→N=3178 term_list_u.rb ユーザごと,アイテムカテゴリに制限をかけた形態素解析結果→ucwom/ なんていうか…ユーザごと…

属性に用いる特徴語の抽出

対象カテゴリ内すべての製品(4627個)で,TF-IDF値の高いtermの上位1000語を抽出 td_list.1000←こいつを属性のリストとする で,概念束作ってみる 閾値(7.94661756324447)以上のTF-IDF値を持つ場合,それをそいつの属性とする 製品55個,概念束作れず 閾値(7.…

属性を特徴語にする必要があるか

「しっとり」とか感覚的な単語は使われていたらそれでOKじゃないか? 閾値以上の回数使われていればOK! 副詞・形容詞を全チェック 擬態語などをすべてリストアップ→属性に使う カテゴリ毎に頻出単語を出す

特徴語を抽出する

以前は1クチコミ=1文書でやってたので1製品に対する全クチコミ=1文書でTF-IDFを計算してみる.前からやってたっぽいorz mecab.rbで製品ごとの形態素解析結果ファイルを作成 all_tf.rbでTFを計算 tf-idf.rbでTF-IDFを計算(ここで特徴語が出る) td_cut.rb…

作業メモ(概念束準備)

> foreach i (1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68) foreach? ruby effect0.rb itmLi…

 概念束

一個だけできたやつ.口紅部門×効果 全体(全部,10以上,10人以上)×ユーザ→不可 全体×○○メイク→不可 カテゴリごと(68個)×効果→不可 属性の数が少なすぎ. 感覚的な単語も抽出して加味 同じ用途のカテゴリは一緒にする 今後の方針 来週いっぱいまでにアイ…

効果・機能

アイシャドウ・チーク・ フィット感 持ちがよい 発色がよい 潤い シアー・薄づき マット ツヤ パール・ラメ ベースメイク下地・ファンデ・パウダー・コンシーラー ナチュラル カバー力 毛穴カバー くずれにくい 潤い 美白・くすみ マット ツヤ アクネケア 日…

単語でapriori

% apriori -c30 -s30 ../../tmp.csv tes.rul apriori - find association rules with the apriori algorithm version 4.31 (2007.03.12) (c) 1996-2007 Christian Borgelt reading ../../tmp.csv ... [15597 item(s), 297 transaction(s)] done [0.21s]. fil…

先日のapriori結果をちょっと可視化

全部でやろうとしたら画像が見れなかったので絞ってみた。ら、びみょー…真ん中の3製品だけ

概念グラフの準備

形式 @id1.txt # file_name 1(頻度) term1 2 term2 : @id2.txt 1 term1 2 term2 : : file_nameは参照するわけではないのでなんでもいい

作業メモ

% ruby sep_make_f-a.rb f_a-sep_make.csv 単語が含まれる製品IDを出力。1単語1行。

ゼミログ

ただのユーザ×製品のアプリオリ求めてもポーチの中身にはならないよねやっぱり 分類することが必要じゃないか ○○メイクを出したのでその単語で分類 感覚的な単語を列挙してみてその単語で分類 人を分類してみる? 新しくデータ収集が必要 分類結果でアプリオ…

apriori

評価5以上、クチコミ10製品以上 % apriori -c0.1 -s1 ../../for_apriori_a.csv.10 data_a10.rul reading ../../for_apriori_a.csv.10 ... [9973 item(s), 3725 transaction(s)] done [0.07s]. filtering, sorting and recoding items ... [9973 item(s)] don…

作業メモ

目的のトランザクションファイルを作成 apriori program で相関ルール(rul)ファイルを作成 conbi.rb で rul ファイルから頻出アイテム集合IDリストを作成

改・○○メイク

GAL,hitomi,party,プレ,囲み,CUTE,hitomi,あゆ,あゆみ,いい,いっぺんに,いつも,いろいろ,うっかり,うまい,うり,おとな,おとなしい,おばさん,おもしろい,お勧め,お気に入り,お呼ばれ,お昼頃,かずき,かっこいい,かわいい,かわいらしい,かわり,がっち…

ゼミログ

アプリオリアルゴリズムはそもそもリアルの世界での買い物(?)を前提に作られたもの。メジャーなものを探すためのものである。メジャーなものはお店に行けば分かる。Webの良いところはマイナーなものも見つかること。よってアプリオリはこの場合向いてない…

apriori programを実行してみた

10件以上クチコミしてる人で足切り reading test.tb ... [9973 item(s), 3725 transaction(s)] done [0.07s]. 支持度信頼度共に0にしたら計算しきれず。支持度1%にしても3つ以上のアイテム集合は発見できず。 0.5%でようやくアイテム3つの集合を発見…。 apri…