« ソーシャルブックマーク考 タギングの可視化について | main | 一万円にどうして価値があるか分からない?ははは、バカだなあ。一万円くれたら教えてやるよ »

2005年05月27日

ソーシャルブックマーク考2 タグの構造について

9割型のソーシャルタギング・サービスが、ユーザーインターフェースの模索をほとんどせずに、サービスの再生産をしているのは如何なものかと。

とか思ってみた前回の続き。

ソーシャルブックマークにおけるタグは、基本的にそれぞれの間に相互作用は存在しない独立関係にある。

具体例を挙げると、"Flash" タグ と "Macromedia" タグが存在した場合、"Flash"の持つ何かしらのパラメータ(例:登録数)が変化をしたり、あるいは"Flash" タグそのものが消滅をしても、"Macromedia"タグにはなんの影響もあらわれない。また、"Flash"タグも"Macromedia"タグも、自分以外のタグについての情報を持っていない。

000199_1.jpg


しかし、このようなタグ構造は実装が簡単な反面、幾つかの問題点を持つ。1つは概念の内包構造が表現できない、例えばBlogというタグで検索しても、Movable Typeというタグがふられたコンテンツは検索ができない点。そしてもう1つは Windows, ウィンドウズ, 窓, Winといったように、1つの内容を表現するタグが複数存在すると、その揺れを拾うことができないことだ。

前者に対するもっとも簡単な解決案の1つは、タグに大して上位語、下位語といった階層概念を与えてえる、といった方法が考えられる。いわゆるフォルダ化だ。

000199_2.jpg

このような構造を採用することで、例えばFlashというタグをキーに検索したときに、その下位概念である「ActionScript」や「Flex」というタグも拾うことができる。また完全な解ではないものの、「Flash」の下位概念に「フラッシュ」「フラ」などを配置することで、同意語の吸収も一応は可能となる。

だがこの方法には1つの問題点がある。それは誰がどのように上位下位関係を決定するのか?ということだ。常識的に考えて、タグを1つ定義する毎にユーザーに負担をかけるのは得策ではない。またその場合、ユーザー毎に階層構造のゆらぎが生じるという厄介な問題も生まれる。いかにフォークソノミーと言えど一元的に管理をする必要があるだろう。

可能性としては、「はてな」のような緩い合議制が機能するコミュニティーでは、比較的まっとうな上下関係の定義が行われるのではないか、ということだ。タグ付けとは別個に、WikiPedia的ボランティアによるタグの整理が行われれば、ブックマーク時の負担が上昇することはない。

しかし、deliciousを初めとする通常のSBSにはこのような議論可能なコミュニティ資産がない。とするならば、階層構造の自動化ということも考慮しなければならないだろう。どうやってタグの上下関係を定義するか?という問題は非常に複雑なアルゴリズムが必要に見えるが、どうやらかなりの部分は簡単なロジック判別できそうな気がする。それは、

AがBという概念を内包するとき、Aに関する文章は必ずしもBという単語を必要としないが、逆にBに関する文章にはAという単語がより高い頻度で含まれる

という自分仮説からそれなりの精度で自動検出できる。

僕自身がアカデミック苦手なので、この手の定義をうまく一言でかけないのだけど、箇条書きするとこのようになる。

上位概念Aと下位概念Bという二つの言葉がある場合、

①:「上位概念Aを含み、下位概念Bを含まない」文章( A && ! B )
②:「上位概念Aを含み、かつ下位概念Bを含む」文章( A & B)
③:「上位概念Aを含まず、下位概念Bを含む」文章( !A && B)

の3つの文章の数の比は、①>②>③が成り立つ。逆をいえば①>②>③が成り立っていれば、どちらが上位語かを判定できるわけだ。

これはあくまで個人的な仮説であり、特に統計的な証明をしたわけでもないが、googleを使って検証をする限りでは、あながち的外れでもないようだ。

例えば「Blog」(A)と、「Movable Type」(B)という単語を検索すると、

○blog ×Movable Type 83,200,000
○blog ○Movable Type 7,200,000
×blog ○Movable Type 3,530,000

となり、①>②>③により、仮説どうり「BlogはMovable Typeを含む概念である」という結果がでる。

「Flash>ActionScript」、「日本>東京」といった関係性においても同様の結果がもたらされる。また興味深いことに、「ロボット>ガンダム」のように、ガンダムの劇中内では「ロボット」という言葉は用いられない場合でも成り立つ。手動でやると検証が大変なので、暇な人はグーグルで比較してコメント欄で結果の可否を教えてください。

この手法は、昨今のロングテールWisdom of Crowds(集合知)に関する記事等を読んで思いついたものだ。Googleをはじめとする検索エンジンから、Wisdom of Crowdsの抽出すれば、そのロングテール部分によって「ガンダムはロボットと呼ばず、モビルスーツと呼ぶ」といった専門的な部分がフィルタされ、主に一般的な認識が導かれるというわけである。

この仮説が実際に証明できれば、判別エンジンの特許とって左団扇な発見だと思うが、もうここに書いちゃったからにはパブリックリソースである。残念。それ以前に、明日の食費に困ってる自分では、そもそも特許費用など捻出することすら不可能だ。将来マトモに実用化された方がいましたら、「深津式上位語 判定理論」とかそういうのでリンクでもください。アマゾン・アフィリエイトで細々と回収しますので。

脱線したので本題にもどろう。簡単なわりに効果的のように見える、上位語下位語によるタグの階層化だが、これも万能なわけではない。また導入したことによって新たに発生する問題も存在する。それは上下関係が記述できる一方で、「関連語句」が表現できないということだ。またFlashタグの中にもActionScriptタグ、FlashMXタグの中にもActionScriptタグといった、タグの多重定義の問題が生まれる。これはフォルダに対するショートカット的なものの導入によって、解決ができそうな気がするがショートカットの乱立は階層構造を崩壊させかねないリスクがある。

話がまだまだ収束しそうにないけど、長くなりすぎたので続く。
ソーシャルブックマーク考3 タグの構造について(続編)

投稿者 Taka : 2005年05月27日 19:37

book

dotfla.gif

bookmark

はてなブックマークに追加

del.icio.usに追加

trackbacks

this entry's trackback URL:
http://www.fladdict.net/cgi-bin/mt3/mt-tb.cgi/184

このリストは、次のエントリーを参照しています: ソーシャルブックマーク考2 タグの構造について:

» タグの構造について from test_31331@Draft
fladdict.net blog: ソーシャルブックマーク考2 タグの構造につ... [read more]

トラックバック時刻: 2005年05月29日 18:09

» Disney Vacation from Disney Vacation
Disney Vacation [read more]

トラックバック時刻: 2005年12月01日 08:46

» Personal Loan from Personal Loan
Personal Loan and [read more]

トラックバック時刻: 2006年01月22日 00:38

» Personal Loan from Personal Loan
Personal Loan and [read more]

トラックバック時刻: 2006年01月22日 04:46

» Retirement Planning from Retirement Planning
Retirement Planning [read more]

トラックバック時刻: 2006年01月24日 11:25

» Car Hire from Car Hire
Car Hire [read more]

トラックバック時刻: 2006年02月01日 06:49

» Refinance from Refinance
Refinance [read more]

トラックバック時刻: 2006年02月13日 08:26

» Real Estate Investing from Real Estate Investing
Real Estate Investing [read more]

トラックバック時刻: 2006年02月15日 04:40

» Barbecue Secrets from Barbecue Secrets
Barbecue Secrets [read more]

トラックバック時刻: 2006年02月20日 11:44

» Barbecue Secrets from Barbecue Secrets
Barbecue Secrets [read more]

トラックバック時刻: 2006年02月20日 17:47

» Color Contacts from Color Contacts
Color Contacts [read more]

トラックバック時刻: 2006年02月22日 09:19

» Basketball Hoop Blog from Basketball Hoopblog
Basketball Hoop [read more]

トラックバック時刻: 2006年02月23日 19:48

» Basketball Hoop Blog from Basketball Hoopblog
Basketball Hoop [read more]

トラックバック時刻: 2006年02月24日 02:28

» real estate investing from real estate investing
real estate investing [read more]

トラックバック時刻: 2006年02月25日 00:53

» Cheap Ticket from Cheap Ticket
Cheap Ticket [read more]

トラックバック時刻: 2006年03月01日 10:18

» Life Insurance from Life Insurance Hints
Life Insurance [read more]

トラックバック時刻: 2006年03月02日 18:15

» Life Insurance from Life Insurance Hints
Life Insurance [read more]

トラックバック時刻: 2006年03月02日 22:48

» Pizza Review from Pizza Review
Pizza Review [read more]

トラックバック時刻: 2006年03月15日 11:40

» cricket news from cricket news
cricket news [read more]

トラックバック時刻: 2006年03月18日 22:44

» divorce lawyer from divorce lawyer
divorce lawyer [read more]

トラックバック時刻: 2006年03月26日 18:29

» divorce lawyer from divorce lawyer
divorce lawyer [read more]

トラックバック時刻: 2006年03月26日 20:05

» acne treatment from acne treatment
acne treatment [read more]

トラックバック時刻: 2006年03月30日 01:54

» basketballhoop from basketballhoop
basketballhoop [read more]

トラックバック時刻: 2006年03月30日 15:53

» Notebook Computer from Notebook Computer
Notebook Computer [read more]

トラックバック時刻: 2006年04月01日 10:21

» cricket scores from cricket scores
cricket scores [read more]

トラックバック時刻: 2006年04月01日 11:38

comment

特定の下位概念において知名度があまりに高すぎる場合、上下関係がはっきりしているにも関わらず
検索結果が逆転する現象があるのではないでしょうか。

また、Flashのような単純な英単語の場合にも同様の現象が現れると思います。

by Munegon : 2005年05月29日 01:18

初めまして、Takaさん。Yuichirouと申します。
このたびは、Takaさんに是非紹介したい情報があり、思い切ってコメントしました。

Takaさんはこの記事のなかで、

> 可能性としては、「はてな」のような緩い合議制が機能するコミュニティーでは、比較的まっとうな上下関係の定義が行われるのではないか、ということだ。タグ付けとは別個に、WikiPedia的ボランティアによるタグの整理が行われれば、ブックマーク時の負担が上昇することはない。

と考察されていますが、それについて、ある過去の事例をご紹介いたします。


はてなダイアリーキーワードは、2003年1月18日のベータ版開始当初、実はツリー構造を持っていました。
http://web.archive.org/web/20030118230024/http://d.hatena.ne.jp/help#parentword (はてなダイアリーのヘルプ (in Internet Archive))

しかし、ベータ版がリリースされて1ヶ月が過ぎたばかりという、まだユーザー数も少ない時点で、すでに親子関係について揉め事が起きていました。
http://d.hatena.ne.jp/hatenadiary/20030225#1046139953 (はてなダイアリー日記 2003年2月25日)

そして、その後色々と対処し、何とか持ちこたえさせていたものの、ついに同年7月31日、キーワードツリーは廃止されることとなりました。
http://d.hatena.ne.jp/hatenadiary/20030731#1059625659 (はてなダイアリー日記 2003年7月31日)


私は別に、Takaさんの提案する「タグのフォルダ化」に異論を持っているわけではなく、むしろとても面白い試みだと思っています。
ただ、「タグのフォルダ化」には過去にこのような事例があった、という情報は、このような考察の上で注目に値すると思い、紹介させていただきました。

by Yuichirou : 2005年05月29日 19:18

>特定の下位概念において知名度があまりに高すぎる場合、上下関係がはっきりしているにも関わらず
>検索結果が逆転する現象があるのではないでしょうか。

あ、それはバリバリありますね。
この方法だとたぶん、概念上の上下関係よりも、認知上の上下関係が優先しちゃいます。ウォークマンとか見たいのでもおきそうですね。

>Yuichirouさん
はじめまして。情報ありがとうございます。
はてながツリーキーワード構造を採用してたってのは知りませんでした。

階層付けには、ユーザーがかなり情報スキルを持ってないとダメだなぁとは思ってたのですが、はてなみたいな合議せいでも難しかったのですかぁ。
ちょっとここら辺色々と調べてみますね。ありがとうございました。

by Taka : 2005年05月30日 12:48

はじめまして。はてなブックマークが始まってからよく拝読するようになりました。

はてなダイアリーはβ期の最初期からずっと使ってきており、キーワードツリーの崩壊も一部始終を知っているのですが、
Yuichirouさんのコメントを補足する形で、

>はてなみたいな合議せい

であったからこそ、階層化ツリーの作成と維持が難しかったように思います。
はてなダイアリーのキーワードツリーについて、スタッフが定めてヘルプにも書かれていたルールは、まさに

>「AがBという概念を内包するとき、Aに関する文章は必ずしもBという単語を必要としないが、逆にBに関する文章にはAという単語がより高い頻度で含まれる」

といった内容のものだったとわたしは理解しています。
しかし、

-その理論的なルールと人間にとっての日常的な便利が別である、と考えるユーザが一定数おり、ルールを逸脱してツリーの関連づけが行われた。
-ルール厳守の立場のユーザとのトラブルが常に発生。
-階層付けの手間や負担感は意外に大きい(判断に困るキーワードが多かった)
-階層が深くなり過ぎ、理解不能……

等々、様々に問題が起こり、廃止に至りました。
キーワードシステムの変遷と議論の経緯は、「キーワード作成ガイドライン資料集」
http://d.hatena.ne.jp/keyword/%a5%ad%a1%bc%a5%ef%a1%bc%a5%c9%ba%ee%c0%ae%a5%ac%a5%a4%a5%c9%a5%e9%a5%a4%a5%f3%bb%f1%ce%c1%bd%b8
にもある程度まとまっていますのでご参考まで。
また、近藤さん自身のキーワードシステム(を含む、はてなに対する考え方)の様々な構想やツリー崩壊への理解は『はてなの本』(http://d.hatena.ne.jp/keyword/%a4%cf%a4%c6%a4%ca%a4%ce%cb%dc)B面インタビューにかなりまとまっていました。

階層化は、ですから、自動化にすれば可能かもしれないなあと思っていますが、個人的には、(3)のほうで展開されている「タグのネットワーク化」のほうを見てみたいですし、興味も感じます。

by yukatti : 2005年05月30日 14:15

>yukattiさん

こんにちは。お読みいただいてありがとうございます。

>>はてなみたいな合議せい
>であったからこそ、階層化ツリーの作成と維持が難しかったように思います。

なるほど。
僕は、合議制だと厳密なツリー構造は無理でもある、程度合意の取れた使用に耐える形になるかなぁ、と思っていたんですけど、厳密派と実用派(?)みたいので衝突が起きていたんですね。

これが「はてな」とキーワードが未成熟な初期段階だから起こったか、それとも今でもやっぱり難しいのかちょっと興味深いです(おそらく後者だと思いますが)。僕が「はてな」を使い出したのは、アンテナが流行だしてからだったので、初期の情報はありがたいです。『はてなの本』も日本に帰ったときに買って読んでみますね。

僕が考えている方法は、ネットワークをベースに、更にはてなのキーワードとタグを結びつけるられないか、というものなんですが、yukattiさんの指摘してくれた部分も織り込んで考えて見たいと思います。

ホントに有用な情報、ありがとうございまっす。

by Taka : 2005年06月01日 20:23

コメントしてください




保存しますか?