1
本文作者: 科學的fan | 2015-03-03 13:31 |
2月28日,英國《新科學家》關注到Google搜索的一個新動向:Google嘗試根據(jù)可信度而不是鏈接數(shù),來決定網頁在搜索結果中的排名。報道稱,Google正在改變以往根據(jù)網頁的導入鏈接數(shù)量來衡量網頁質量的模式,其內部的一個研究小組著手研發(fā)的一個新系統(tǒng),將不再計算導入鏈接的數(shù)量,而是計算網頁內不實信息的數(shù)量,并給出網頁的可信度分數(shù),從而確定網頁在搜索結果中的排列位置。
該研究小組論證道,互聯(lián)網充斥著垃圾,一些虛假的醫(yī)藥廣告可能會成為頭條,一些胡編亂造的“新聞”如野火般到處蔓延。也就是說,如果網頁被鏈接的數(shù)夠多,即便充斥的是大量的不實信息,也會出現(xiàn)在搜索結果靠前的位置。在這個小組設計的新軟件中,錯誤信息越少的網頁將被視為越可信。
對搜索結果的炮轟,對國內的互聯(lián)網用戶而言并不陌生,“競價門”在國內某搜索引擎的頭頂上始終難以揮散。刨卻道德的苛責,作為長期浸染于互聯(lián)網中的一員,我們平日里搜索的結果是如何得到的呢?
關于如Googlebot(俗稱google爬蟲)等搜索引擎的收錄程序,科學的fan在此不作討論。搜索引擎結果的好壞,業(yè)界有一個詞用來衡度:相關性(Relevance),簡單來講,就是檢索結果是不是用戶所要查詢的內容。就如要查詢一個電話號碼,很多人通常會打給114,在詢問的過程中,用戶絕不希望114給他們的是空號或者錯誤的答案。
搜索引擎要干的活,就是快速地響應用戶的檢索,把滿足用戶需求的搜索結果反饋給用戶。能否快速地找到用戶檢索所需要的答案,或進一步來說,把與用戶檢索需求最相關的高質量內容納入結果排序的前面是搜索引擎的核心工作。
目前,不同的搜索引擎使用了不同的排序方法。用得比較多的是“網頁被鏈接的次數(shù)越多而且鏈接的站點越權威,質量就越高,排序越靠前”的超鏈接分析法和“查詢詞的頻率越高,其排序就越靠前”的詞頻統(tǒng)計法。此外,還包括根據(jù)網頁被點擊次數(shù)決定的點擊率法和以網站付費的多少來決定排序前后的付費競價法。
Google搜索引擎中的PageRank,于其兩位創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學發(fā)明出來,屬于超鏈接分析法的突出代表。PageRank將對頁面的鏈接看成是對頁面的投票,是其重要性的表征。
在搜索結果靠前的位置很重要,因為這直接關系到用戶對搜索引擎的體驗問題,用戶能否在適當長度的搜索清單得到自己想要的答案,搜索引擎何時把用戶想要的結果巧妙地呈現(xiàn)在用戶面前,玄妙全在搜索結果的排序中。
有針對搜索引擎用戶點擊方式的研究表明:
1)60-65%的查詢點擊了名列搜索結果前10條的網頁;
2)20-25%的人會考慮點擊名列11到20的網頁;
3)僅有3-4%的會點擊名列搜索結果中列第21到第30名的網頁。
也就是說,絕大部分用戶是不愿意翻頁去看搜索引擎給出的后面的結果。Google的點擊熱圖和康乃爾大學的一項eye tracking實驗,也很好地佐證了這樣的結果。
光譜代表的是不同位置用戶的點擊熱度,顏色越靠近紅色表示點擊強度越高
從Google點擊熱圖(Heat Map)來看,搜索結果的前3條熱度最高,吸引了大量的點擊。換句話說,對搜索引擎而言,最前的幾條結果最關鍵;在此處呈現(xiàn)用戶想要的結果,對用戶的滿意程度至關重要。
康乃爾大學的eye tracking實驗獲得了更為精確的Google搜索結果的用戶行為分析。分析結果表明,前三條結果的總點擊幾乎分流了搜索流量的80%,第一條結果獲得了56.38%的搜索流量,第二條和第三條結果的排名依次降低,但遠低于排名第一的結果,前三條結果的點擊比例約為11:3:2。
關于搜索質量,有其自身的評估體系。發(fā)軔于英國克蘭菲爾德大學(Cranfield University)的Cranfield評價系統(tǒng)在各大搜索引擎公司內都有廣泛的應用,還有Precision-Recall(準確率-召回率)評價指標、MAP(平均準確率法)、A/B Testing等等搜索引擎的結果質量的量化評價方法。同時,現(xiàn)在也已經出現(xiàn)了許多關注到搜索結果的應用,如能剔除濫發(fā)虛假信息的LazyTruth插件、會從垃圾網站中收集謠言并通過交叉參考其他來源進行查證或反駁的Emergent項目。窮其這些評估體系和應用,都是在關注同一個問題:提供給用戶更好的搜索結果。
但客觀地來講,此番Google宣稱要急于“facts”來決定網頁在搜索結果中的排名,但究竟有多少“facts”能被爬蟲(googlebot)快速且高質量地認定?這個事實恐怕會令人沮喪,只怕是強大如谷歌,一樣無法改變這個“事實”。同時不要忘了,排序既是搜索引擎的權杖,更是搜索引擎向其衣食父母—廣告商要價的談資。信譽評級,更像是Google給用戶傳遞的一個信號:作為搜索引擎,我一直致力于把最好的搜索結果呈現(xiàn)在你們面前!即便是出現(xiàn)如狗皮膏藥的排序靠前的搜索結果,更有可能是我們的排序方法有問題。
將質量更高的搜索成果呈現(xiàn)在用戶面前,是搜索引擎的立身之本和應然所為。更多地關注網頁過往數(shù)據(jù)的真實性,做分級,對網頁的可信度“信譽值”進行度量。在這一點上,Google還是令人贊賞和期待的。
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。