Posted by Mr. Friday
美國知名的部落格 ReadWriteWeb,日前發表了一篇來自 Infoharmoni 這家自稱研究即時搜尋的 startup 的文章,看了以後很有回到學校裡面和教授討論paper、研究理論的興奮感覺。趁感覺還在,趕快地跟大家分享一下。
Twitter推出即時搜尋功能之後,一時之間吸引了相當多人的目光。可是就如同我曾經在 Twitter 引爆即時搜尋風潮,但是目前的即時搜尋到底解決了什麼問題?這裡面提到過的,其實現在的即時搜尋還有很多可待改進之處,其中一個大問題就是如何將訊息排名。我當時是這樣寫的:
排序是一個搜尋引擎的重要課題,因為人們只想要看『重要的資訊』,沒有排序過的資訊根本是一堆垃圾。而像Twitter這樣用時間排序,也不能說是不行,只能說是一種偷懶的方法而已。
即時訊息的排序,或者說Ranking,我們要怎麼做呢?或者,除了排序,我們還能從即時訊息裡面挖掘出來什麼?要回答這個問題,我們應該先觀察一下即時訊息的資料特性,以及它是如何傳播的,會有比較清楚的頭緒。
研究標的
上圖是今年六月伊朗大選時,在Twitter上討論”Iran”這個關鍵字的tweet,單位是一小時。可以看得出資料量相當龐大,最高峰時每小時的討論量可以超過8000則推,多到你根本看不完。不過也因此,如何在當中篩選重要的推,並以適當的方法呈現出來,就變得格外有價值。
訊息特性
一個熱門的新聞關鍵字,隨著更多新訊息的出現,會隨時改變它的資訊內容,以及跟其他關鍵字的交互關係。這樣講有點抽象,我舉個例:如果我們現在去plurk上面,搜尋”戴爾”這個字,那我們可以大概的觀察到討論內容的關鍵字會隨著新聞的不斷出現而改變:
- 6/26:螢幕、好便宜
- 6/30:說好的螢幕呢
- 7/4:電腦、E4300、明翰、泡沫網
- 7/7:總經理、折價券
光是從新關鍵字的出現,我們就可以察覺到有新聞有新進展出現,研究也證實了這一點。上圖是 infoharmoni 研究伊朗事件的相關 tweet 時,發現每當伊朗選舉有新的進展/消息出現時,與 #iranelection 一起出現的關鍵字就會改變,而且在事件發生後的當下會大量出現。
傳遞路徑
那Twitter上面訊息是怎麼傳遞的?誰看了你的推?這個訊息原是有點難回答,不過要感謝”retweet銳推”這個功能的出現。Retweet 這個功能像是說『我看了你訊息,而且我也推薦這個訊息,要給我認識的朋友看』,因此作為即時訊息傳遞路徑的觀察對象,可以說再合適也不過了。
如果A、B這兩個人分別代表地圖上的兩個點,而A推了一則來自B的推文,就等於在A點與B點間建立一條連線,那麼可以用下圖代表伊朗事件裡,Twitter上即時訊息的傳輸關係:
這張圖真是再清楚不過地說明了伊朗事件Tweet的特性了。
首先,只有極少數的五個人〈五個白點〉,他們的推會大量的被其他人〈周圍的紅色圓點〉retweet。這相當符合我之前寫過的另外一篇:淺談網路世界的 Power Law 現象〈五〉──Plurk的名人效應與酪梨壽司的一千噗 裡面談到的現象,就是微網誌裡有相當大的群聚效應,群聚在 Infoharmoni 所謂的『Information Elite』的這一小撮人上。
再者,雖說是群聚效應,但是這張圖的群聚比例未免也太懸殊了,看起來就像是五個不同的人、對著五群各自不認識的群眾發言。如果這五個人的發言效應這麼大、又都是針對同一事件發言,那應該會有很多網友是同時會關注這五個人的推才是。但從圖表來看,同時關注這五個人的網友〈位在中間的點〉反倒不如各自的關注者多?怎會這樣?
Infoharmoni 認為,這是因為新聞事件與媒體報導的關係,Twitter 上關注伊朗的人突然爆增,以至於這群人還來不及形成完整的社交結構所致。
相比之下,這是分析同時提到伊朗與 ”obama” 兩個關鍵字的RT關係,所畫出來的圖。你可以從圖上觀察到,雖然仍然有群聚效應,但是單一支持者的規模小得多,連線間呈現複雜的交錯關係,代表這些討論者之間已經形成一個比較完整的社交結構。猜想,或許在伊朗事件裡提到 obama 的人,多半是美國人,由於他們使用twitter的時間比較久,所以在上面的社交結構也比較複雜些。
分析即時訊息可以做什麼?
這幾張圖表不只是炫而已,這篇文章已經相當清楚的暗示了 Twitter 上的即時訊息可以做什麼應用出來。前面關鍵字變化的部分,讓我想起了 Google News 這種自動偵測新聞事件、判斷新聞的半衰期、自動排序新聞的服務。而後面關於 Retweet 的研究,則跟 Google 最擅長的超連結分析與搜尋有異曲同工之妙。
但是 Twitter 比起一般的網頁,更為棘手的是新訊息會一直不斷湧入,因此如果要在上面發展搜尋或 Data Mining 的技巧,必須考慮如何快速更新搜尋結果的問題。
總而言之,即時訊息的分析與搜尋、甚至從中挖掘出隱藏的社交結構,可以說是目前最熱門的話題之一。透過 infoharmoni 的資料特性分析,或許能一窺即時搜尋的可能性。infoharmoni 稱,如何動態地、有系統地挖掘出隱藏的新社交結構,可能是個價值百萬美金、甚至是上兆美金的大哉問。那該怎麼做?或許先仔細研究 Twitter 上的訊息特性,就能有一些頭緒。
沒有留言:
張貼留言