先行/関連研究調査

この3連休で論文を書くぞ!ということで.以下リンク先はPDF.

Web ネットワークにおけるクチコミ効果

2005年.たぶん@cosmeをデータとして使っている.掲示板への書き込みとその影響の広がり,効果.

相互作用性に着目したクチコミ研究の系譜と展望: 関係性パラダイムでのクチコミ活用に向けて

2004年.クチコミ関連研究の概観,クチコミ発信者と受信者の相互作用について.

CGM 分析技術の現状と課題

CGMをブログやSNS等で分散的に書かれたものと定義し,その中から口コミを集める手法とそのサービスについて.比較対象サービスとして@cosme等のクチコミサイトを取り上げている.

で,論文の結論は?

新しい分類手法を考えて従来より検索しやすい・製品集合が検索できるシステムを作った,になるんだろうか.その単語で検索すりゃすむことじゃね?とか言われそう.相変わらず評価はどうすんねん.

できた概念束を受けて

  1. 今のままだとなんのこっちゃ分からないので,カテゴリ毎に記号化して表示
    • 欲しいアイテムセットが出るか?
  2. カテゴリ毎に分けられてしまっているので,DFを求める際の文書集合をカテゴリ毎にする
  3. 現状は属性を上限10個に制限しているのでその制限を解除
  4. ユーザを属性として概念束を作る

みたらいさんから概念束改良プログラムを頂きました.

記号化

ruby id-ctgr.rb file1.dot obj.list > file2
lv -Ou8 file2 > file.dot
    • 8 化粧下地
    • 9 パウダーファンデ
    • 10 リキッドファンデ
    • 11 クリームファンデ
    • 12 スティック・その他ファンデ
    • 13 コンシーラー
    • 14 ルースパウダー
    • 47 プレストパウダー
    • 22 アイブロウペンシル
    • 48 アイブロウパウダー・その他
    • 49 ペンシルアイライナー
    • 20 リキッドアイライナー
    • 21 マスカラ
    • 50 マスカラ下地・まつげ美容液
  • §
    • 19 アイシャドウ
  • Δ
    • 15 口紅
    • 16 リップグロス
    • 17 リップライナー
    • 18 チーク

限定解除

プログラムが動くかどうか心配だったが問題なさそう.図は特徴語上位200個.

DFを変える

  • これまで
    • 1製品に対する全クチコミ=1文書,全製品=全文書
  • DFの計算方法を変える
    • 1製品に対する全クチコミ=1文書,カテゴリ内の全製品=全文書
    • そのカテゴリの特徴的な単語が高い値を示すことがなくなる
  • 例:前後で口紅っぽい単語が出なくなっているのが分かる
1 グロス 23.82461452 フレッシュ 18.1879308
2 フレッシュ 18.56255529 PU 12.99220002
3 16.70947527 キャラメル 7.616921613
4 PU 16.14500462 ^^; 7.275172319
5 ラメ 15.55215699 なつかしい 7.275172319
6 ピンク 14.34543838 お世話 6.464242103
7 キャラメル 14.3056912 カネボウ 6.464242103
8 口紅 13.99007802 G 5.888877958
9 単品 10.85334305 小さい 4.780956497
10 ベージュ 10.76330921 4.33073334

  • カテゴリ分類になってしまうのは避けられた
  • 集合が小さすぎる
    • →同じ特徴語を持つアイテムが少なかった

カテゴリ毎に概念束を作る

概念束が作れるようになったので,以前やろうとしたカテゴリ毎の概念束も作ってみた.割ときれいにできた例を掲載.

  • 53:入浴剤・バスグッズ
  • 51:ネイルケア・ネイルグッズ

  • 24:リムーバー

やっとこさ概念束お目見え

行末に空白が入ってたのがいけなかったのかもしれないという結論.形式はかなりストリクトなものが求められるので注意すべし.

perl -pe 's/rankdir=\"LR\";(.*)Osaka(.*)/$1\/usr\/home\/shima\/gothic\.ttf$2/' < file1 > file2

行をオブジェクト,列をアトリビュートとすると,アトリビュートが空な概念は書くけどオブジェクトが空な概念は書かないっぽい.byげじせんせい

システムつくるお

げじせんせいのお告げ

  1. 概念のオブジェクト集合はわかってるのでアトリビュート集合は求める
  2. 隣接する概念の差分を求める
  3. 隣接する概念をファイルに書き出す
  4. オブジェクトの集合からセットを作る
  5. 検索用にどのオブジェトがどの概念にあるか, どの属性がどの概念にあるかのデータを用意しておく