Posts tagged "study"

少し前に論文「マイクロブログの文脈付き投稿情報の体系化に基づく重要ユーザ推薦と情報集約支援への応用」を紹介しましたが、これの参照している先行研究である表記論文を、共著者のkiyoyaこと山口清弘さんから送っていただきました。論文は次のような背景認識から始まっています。

オンラインコマースにおけるコア技術となっている,アイテムのクラスタリングや推薦においては,アイテムをどう特徴付けるかが,その結果を大きく左右する.ここで,記事の特徴付けとは,記事を何らかの視点で数理的に表現すること,および,それに基づいて記事同士の類似度を算出することから可能であると考える.

統計学を知らない僕なりに読み進み、砕いてみます。最近はニュースサイトでもオンラインショップ(eコマースサイト)でも「お勧め」をされることが増えてきました。これは、よく似た記事、よく似た商品をグループ化しておいて、そのグループ内の一つがピックアップされたら、別の一つを推薦してみる、ということをしています。でも「よく似た」と簡単に書きましたが、ある記事と別の記事、ある商品と別の商品が「似ている」というのは、どういう意味で、どうやって決めるんでしょう?

一般に推薦システムにおけるアイテムの特徴付けには,誰がどのアイテムを評価したかという共起関係用いられる傾向にある.Tumblr のような,記事が人の間を伝播していくネットワークにおいては,共起関係のみを考慮するよりも,記事の伝播経路を用いた記事の特徴付けの方がより有用であると考えられる.

一般的に広く使われているのは、「この商品を買っている人はこんな商品も買っています」という情報を活かした判断です。AとBとCはよく同じ商品を買っている。つまり彼らは好みが似ているということだ。そして彼らの好みにあった商品が二つあるなら、それの二つは似ているということだ。こういう判断が下せれば、二つのうち一方を買った人には、もう一方も勧めると買ってくれそうだ、と考えられることになります。

こうした「誰と誰と誰が」という関係、共起関係で似ている度合いを図ることもできますが、Tumblrではさらに「誰がいつ誰からリブログしたか」という時系列や伝播経路を考えることもできます。則のぞみ氏、山口清弘氏らはこれらを考慮したほうが、より妥当な(精度のよい)にている度合いを測れるだろうという仮設を立て、実際に実験して確かめています。

ここから実験方法と実験結果になると、数式と数値が乱れ飛ぶ、私にはなんとなく程度には分かっても正確なところはギブアップの世界に入るので割愛。いきなり考察のうち、特に面白かった、木構造、順序指標を考慮した結果を。

カット率6割から,順序指標が共起指標に比べて有意に高い再現率となった.これは,共起指標では,カット率の増加に応じて再現率も下がっていくが,順序指標では,カット率6 割から8 割の間で再現率がほぼ変化しないことによる.この理由として,Tumblr においては,ある記事を誰が最初の方でリブログしたのかという,最初の方の順序が,後の伝播を決定付ける重要な要因になっていることが考えられる.Tumblr においては,特に伝播の初期における順序を考慮することが有用であると言える.

言い換えれば、「誰と誰と誰が」という共起関係に基づいたアプローチでは、興味を示す層のうち実際にリーチできた層が減るほど、残りの人たちを推測する精度が悪くなります。ところが「誰と誰と誰がそれぞれいつごろ」という順序を指標に入れると、5割を切ったあたりと2割まで減ったあたりで同等の推測制度が出ています。

もっと言えば、共起関係だけで考えていた頃であれば5割、多分アーリーマジョリティまでを観察してはじめて浮かんできた潜在顧客層が、木構造における順序にも注目することで2割、多分アーリーアダプタぐらいを観察すれば浮かんでくるということです…だと思います。もちろん「マイクロブログの…」もこの論文も、Tumblrのような「リシェアの経路と時刻が可視化された」世界だからこそ役立つ、ある種のニッチな世界向けのアプローチといえるでしょう。でもニッチだったそのリシェア・ワールドが、いまやTwitterやFacebook、そしてGoogle+へと領地を拡大しています。

おそらく「バイラルでは経路が重要」という考え方は新しくないでしょう。ですが購買層という古典的な視点でも、つい先日、4,500台の自販機から集めた2億件のビッグデータをもとにすることで新製品が生まれたことが報じられました。現在(※’12/01/27)165億件強のTumblrの投稿合計数から経路情報を調べ上げると、そこにはまた新しく見えてくるものがありそうです。そしてオンラインコマースにおけるリコメンドを背景に上げたこの論文は、やっぱりそこを睨んでいるんだろうな、と思います。

それが来た時に、その手法に先鞭をつけ、かつデータを総なめするのではなくある程度小規模なサブセットで代替したときの精度に言及したこの論文は、結構面白いポジションにあったりしないかな、と思いました。

TumblrユーザーでTumblr Gearの開発者の@honishiさんから、Tumblrを題材にした日本の論文があると教えてもらいました。ユーザーにとってソーシャルフィルタリングをする上で有用なコミュニティ(ユーザー郡)を見つけ出し、その代表ユーザーを抽出してリコメンドするために、次のようなステップで解析を行う、という試みをしているようです(と思います、理解が違ったら是非ご指摘を)。

  1. あるユーザーの投稿50件について、その投稿の伝播経路(リブログ経路)に出てくるユーザーと、誰が誰からリブログしたかというリブログ関係を調べる。
  2. 平面上に登場したユーザーを並べて、リブログ関係の矢印でつなぐ。同じ経路で複数回リブログされていたら(たとえばユーザーAはユーザーBから5回もリブログしている)その矢印は太くなる(3.1)。
  3. 矢印の太いユーザー同士が近くになるようにユーザーを配置し直し、近くにいるユーザーたちをコミュニティとしてグループ化する(3.2、ここで図3のような配置になる、実際にはコミュニティ分割の手法で計算的に行う)。
  4. 各コミュニティ内でリブログ関係を見比べ、コミュニティ内でリブログネットワークのもっとも重要な場所にいる代表ユーザーを特定する(3.3、実際にはHITSアルゴリズムで計算的に行う、kiyoyaさんのスライドが参考になるかも)。
  5. 各コミュニティの代表ユーザーから、最初に選んだ「あるユーザー」への情報流量をフォード・ファルカーソンのアルゴリズムで算出する(3.4、ここは「対象ユーザがどのコミュニティからの情報を多くリブログしているかを求めることができる」と説明されているが理解できなかった、分かる方の解説を切望)。

先行研究としてソーシャルブックマークを題材とした研究が挙げられていますし、SNSのフォロー関係に着目した研究もありますが、Tumblrのリブログ情報は素材として次のような面白さがあると思います。

  • ソーシャルブックマークを素材とした場合、私と興味の近い(Similar)ユーザーを抽出することができる。しかしユーザー間の関係、そこから出てくる私との距離、関係の強さ、論文内の言葉で言えば情報流量は分からない。
  • フォローを素材とした場合、私との距離が近い、また複数のパスでつながった、(潜在的な)情報流量の多いユーザーを抽出することができる。しかし私との興味の共通点があるか、それがどんな興味かは分からない。
  • Tumblrのリブログ(その他Google+などのリシェア全般)には、ユーザ間の関係(リブログの矢印の始点と終点)と、共通する興味(リブログされた内容)の両方が含まれている。ユーザー間に共通する興味と、一方にその興味に合致するコンテンツを流し込んだ時に、他方に流れるそうかが分かってくる。

つまり、例えばid:naoyaさんの言う「そのエントリを『誰が』ブックマークしたのかが(※僕にとって)一番重要という視点に立つ」ことができるデータなのです。

この論文の内容を端緒に、「ユーザー間の関係」と「その関係の属性(興味対象)」の両面を反映したグラフ化、リコメンデーションの洗練まで研究が進んでいくと面白そうだな、と思いました。参照されている先行研究の「Tumblrにおける情報の伝播経路に着目した記事の特徴付け」も読んでみたいところだけど、これは人工知能学会員じゃないと読めないのかな?

——
私の誤理解のご指摘や補足などいただけるようであれば、@tsukamoto宛て、あるいはGoogle+のメール送信ページや「EFFECTIVE TUMBLRへの質問」ページなどでお送りください。また「これも面白いよ」というものがあれば、前述の連絡先の他「EFFECTIVE TUMBLRへの寄稿」も歓迎です!

秋場所」の呼び名もあったTumblr Meetupが12月17日に開催されました。資料も徐々に公開されています。

(developer)

(reblogger)

(司会)

(懇親会)

資料とか懇親会での登壇者とか補完されると嬉しいです。公式Tumblrは「tumblr developer’s meetup jp」。集合写真とか次回告知とかひどいイソターネッツですね!

(追記) @t_lav95さんの資料、@shingoymさんの資料、@yarumiさんの資料、@mofiganさんの資料にリンク。

psty:

実は、この件については直接Tumblrの社長から聞いている。

effective-tumblr:

7月にTumblr Meetup Osaki、そして8月にTumblr Meetup TokyoとこれまででたことのなかったTumblr関連イベントに立て続けに行ってみた。どちらでも話題になったのは「一体Tumblrの収益源はどうなってるんだ?」「あのサービスに持続性はあるのか?」という話だった。Tumblr自身は収益構造についてはっきり言っていないと思うので…

Tumblrの社長談、どんなだったんでしょうか。気になります…。

7月にTumblr Meetup Osaki、そして8月にTumblr Meetup TokyoとこれまででたことのなかったTumblr関連イベントに立て続けに行ってみた。どちらでも話題になったのは「一体Tumblrの収益源はどうなってるんだ?」「あのサービスに持続性はあるのか?」という話だった。Tumblr自身は収益構造についてはっきり言っていないと思うので、スタートアップの動きを丹念に追いかけるTechCrunchの、日本語版のTumblr関連の記事を読み直してみた。

■製品化期(2007年3月~)

2007年3月にローンチしたTumblrは当初有料アカウントを設けるつもりだった。しかし、この計画は実行に移されていない。同10月には、最初の投資75万ドルをSpark CapitalとUnion Square Ventures(Andrew Parkerが所属している)から調達している。

2008年12月にはシリーズBラウンドで450万ドルをこの二社から調達。この時点のTumblrは「広告はゼロ。従ってドル収入もゼロ」で、創始者のDavid Karpはこの調達により「最低2年半分の助走用の滑走路がスタートアップに確保できた」と話している。

■収益化期(2010年3月~)

2010年4月にさらに500万ドルを調達しており、CrunchBaseではこれをシリーズC、市場にリーチし、売り上げをあげるための投資ラウンドと位置づけている。実際、同時に「有料サービス第二弾として有料テーマを発表」している。

第一弾がなんだったか思い出せない?2010年3月に発表されたTumblrディレクトリに「Featured」ブログとして掲載される$9~の有料サービスだ。現在はディレクト機能は人気(explore)置き換えられ、Featuredに変わるものとしては注目(Spotlight)がある。アナウンスを見る限り、もうこの機能には有料サービスは絡んでなさそうだ。

なおこれらの発表に関連して、The Wall Street Journal系のAll Things Dが次のように記している。

This is a switch from the company’s earlier plan to bundle lots of must-have features into a “Tumblr Plus” subscription service aimed at its most passionate users.
(via Tumblr Raises $5 Million From Spark and Union Square - AllThingsD)

いわく「これは、熱狂的なユーザー向けのたくさんの必須機能のバンドル、『Tumblr Plus』有償サービスというこの会社の初期のプランからの路線変更だ」。2007年5月に提供を予定していた有償サービスは、結局提供されることはなくなったようだ。

■現在(2010年12月~)

2010年11月、さらにシリーズD(=追加)ラウンドとして3,000万ドルを調達している。Spark CapitalとUnion Square Venturesはさらに500万ドルずつ投資し、それぞれ累計約1,000万ドル。そしてこのラウンドでSequoia Capitalが参加し、約2,000万ドルを出資している。社長のMaloneyは、このキャッシュについてのプランが知りたければ「Getting ready for 2011」を見るように言ったということだから、使途は技術チームの拡大とセカンドデータセンターの開設だ。

実際の売上額は分からないけれど、$9~$49の有料テーマの売り上げが、計4,000万ドルを超える投資額に見合うだけになっているという気はしない。あるいは「Tumblrについて」ページによれば現在40名あまりのスタッフと、2つのデータセンタ(すごいことになりそうな通信回線も)のランニングコストにもならないかも知れない。20$(発表時は15$だった)のオリジナルTシャツもあるね。でもあれはTumblr社の取り分はあるのかな?

■まとめ

シリーズCラウンドのあった2010年4月以降を収益化期と言ってみたが、現時点でTumblrはおそらくまだ黒字化していない。僕の結論としては、「Getting ready for 2011」で自身が言っているように、VCの出資を人員とインフラのコストにあてており、根拠はないがきっと拡張コストだけじゃなくランニングコストもそれでまかなっているんじゃないかと思える。

将来については、Tumblr自身はどう考えているのだろう?買収という形でのExitだろうか。それとも同じく初期は収益化方法が見えなかったTwitterのように、意外にも自力で収益を上げるのだろうか。どちらを目指すにしても、最初の二年間を500万ドルの出資調達で、次の一年弱をやはり500万ドルの出資調達で乗り越えてきたTumblrは、追加調達した3000万ドルでインフラやチームの拡張に加えて1、2年はサービスを継続してくれるんじゃないかと思う。

■参考

前述したとおり、ほぼ全てTechCrunch日本語版のTumblr関連記事を情報源にしている。該当記事を(財源に関連しないものも含め)リストアップしておく。

Slideshareで「Tumblr meetup Osaki 2011 - we heart Tumblr.」を公開しました。Tumblr勉強会でメインに使ったスライドです。サブに「Tumblr for Organizaions」を用意しており、ディスカッションではそちらを多く使いました。

Tumblrがただのブログではない「Tumblelog」といわれる違いとその楽しみ、そしてダッシュボードというソーシャルフィルタリング空間の楽しさの二つを中心に、「みんながTumblrに夢中になっている理由」の解説などもしています。スライドの素材にしている大半の情報、引用は、Effective Tumblr: アーカイブ: 2011年6月で見ることができます。

Tumblr meetup Osaki 2011 - Tumblr for Organizations. View more presentations from Makio Tsukamoto

Tweetvite :: Tumblr勉強会」でサブに使ったスライド。メインは「We heart Tumblr」で話しましたが、ディスカッションではこちら側を話題にする人が多く、半分以上のスライドを議論の素材として見せています。

「ソーシャルフィルタリング時代」と「公式Tumblrの増加」を踏まえ、公式Tumblrをはじめる意義は「ソーシャルフィルタの入口に足を運ぶこと」と考えました。

最初にファッションブロガー達がTumblrにやってきて、今、ブランドもそちらに向かっている。(First, fashion bloggers came to Tumblr, and now brands are headed there too.)

2007年のイベント発表資料とのこと。この頃の海外と日本のTumblr異文化の錯綜が垣間見えておもしろい。ただ、日本的「QuoteとReBlog」のTumblrって、がんばってメディアメディアしてるTumblrよりも、わりとDavidのいう「思いと画像をできるだけ早くアップ」することに近い位置にいる気がする。

以下を紹介し、どこがクールか、なぜこのようにファッション業界でTumblrが受け入れられているのかを解説している。