<strong id="1cswp"></strong>

繼佩奇和布林的開山論文之后，谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會(huì)的法眼？

本文作者：奕欣

2017-04-06 18:19

導(dǎo)語(yǔ)：這篇論文發(fā)表于 2000 年的第九屆萬(wàn)維網(wǎng)大會(huì)（WWW）上，在接下來(lái)的 17 年里呈現(xiàn)它非凡的影響力。

2017 年的The Seoul Test-of-Time Award 頒給了《Graph Structure in the Web》，這可謂是實(shí)至名歸。

雷鋒網(wǎng)了解到， Seoul Test-of-Time Award 是國(guó)際萬(wàn)維網(wǎng)大會(huì)上特設(shè)的一個(gè)獎(jiǎng)項(xiàng)，主要是為了表彰多年來(lái)對(duì)科學(xué)，技術(shù)或社會(huì)產(chǎn)生了重大影響的論文。

根據(jù)維基百科的介紹，在韓國(guó)首爾舉行的 WWW 2014 時(shí)，組委會(huì)決定在下一年的 WWW 大會(huì)上評(píng)選這一獎(jiǎng)項(xiàng)，因而得名“The Seoul Test-of-Time Award ”。

《Graph Structure in the Web》這篇論文最初發(fā)表于 2000 年的第九屆 WWW 上，論文指出了「萬(wàn)維網(wǎng)的圖表結(jié)構(gòu)」，堪稱開創(chuàng)性研究。論文作者包括谷歌的 Andrei Broder, IBM 的 Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan 和 Andrew Tomkins，以及合作成員 Farzin Maghoul, Raymie Stata 和 Janet Wiener。

彼時(shí)，它已經(jīng)在 WWW 大會(huì)上獲得了最佳論文獎(jiǎng)，并在接下來(lái)的 17 年里呈現(xiàn)它非凡的影響力，在 ACM Digital Library 上的累計(jì)引用次數(shù)超過(guò) 3500 次。

那么這篇論文到底有何經(jīng)典之處呢？雷鋒網(wǎng)了解到，本文對(duì)互聯(lián)網(wǎng)結(jié)構(gòu)的研究做出了兩個(gè)重要的貢獻(xiàn)。

首先，它進(jìn)行的大規(guī)模實(shí)驗(yàn)，顯示 Web 節(jié)點(diǎn)是根據(jù)冪律分布的。也就是說(shuō)，Web 的節(jié)點(diǎn)具有 i 個(gè)傳入鏈接的概率大致與 1/i2.1 成正比。

其次，與以前幾乎全連接的 Web 研究不同的是，論文描述的是一種更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，也就是如今非常標(biāo)志性的「弓箭」（bowtie）狀（如圖所示）：

繼佩奇和布林的開山論文之后，谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會(huì)的法眼？

作者提出了一個(gè)精簡(jiǎn)的 Web 圖形模型，并描述了 Web 頁(yè)面的幾個(gè)特征：

強(qiáng)連接的核心組件：每個(gè)頁(yè)面都可以從任意其它頁(yè)面訪問(wèn)；
IN/OUT 簇：也就是說(shuō)，它只具有到核心或來(lái)自核心的單向路徑；
兩簇之間以卷須（tendrils）連接，還有其它繞過(guò)核心與簇連接的通道，還有與其它部分完全隔絕的組件。
核心組件是全連接的，每個(gè)節(jié)點(diǎn)都能從任何節(jié)點(diǎn)到達(dá)。

作者 Broder 等人發(fā)現(xiàn)，比起以往的研究，實(shí)際上 Web 的結(jié)構(gòu)更加松散，而任何兩個(gè)給定頁(yè)面的互連概率少于 1/4。

有意思的是，這個(gè) 1999 年完成的研究是通過(guò)兩個(gè) Altavista 爬蟲爬行了 2 億個(gè)頁(yè)面與 15 億個(gè)鏈接而得到的。而今天，谷歌僅僅在 App 里就需要索引超過(guò) 1000 億條連接，爬蟲需要處理超過(guò) 130 億個(gè)網(wǎng)址。

而 Broder 等人提出的 Web 宏觀結(jié)構(gòu)為大量的爬蟲及搜索網(wǎng)絡(luò)研究提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，也對(duì)現(xiàn)代搜索引擎架構(gòu)產(chǎn)生了深遠(yuǎn)影響。

值得一提的是，首屆「Seoul Test-of-Time Award」于 2015 年頒給了谷歌的創(chuàng)始人 Larry Page 和 Sergey Brin，以紀(jì)念他們?cè)?1998 年第七屆 WWW 大會(huì)上發(fā)表的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》。

這篇論文正是 Google 的孕育之地，兩人在論文中提及：

「我們選擇 Google 作為系統(tǒng)的名字，它是數(shù)學(xué)大數(shù)『googol』的常見(jiàn)的一個(gè)錯(cuò)誤拼寫，即 10100，我們也希望能夠構(gòu)建一個(gè)覆蓋海量信息的搜索系統(tǒng)」也就是說(shuō)，WWW 大會(huì)實(shí)際上也是谷歌首度正式亮相的舞臺(tái)。

Google 是一個(gè)大范圍搜索引擎原型，通駝?dòng)行У刈ト〖八饕?Web 頁(yè)面，產(chǎn)生比現(xiàn)有系統(tǒng)更加令人滿意的搜索結(jié)果。設(shè)計(jì)一個(gè)搜索引擎在當(dāng)時(shí)具有其必要性：

網(wǎng)絡(luò)頁(yè)面的大量增長(zhǎng)讓用戶通常采用 Yahoo！這樣的上網(wǎng)導(dǎo)航網(wǎng)站，但存在的缺點(diǎn)在于網(wǎng)站的選擇具有主觀性，構(gòu)建與維護(hù)網(wǎng)站需要大量成本，而且更新時(shí)效慢，也無(wú)法覆蓋「蘿卜青菜，各有所愛(ài)」的大眾口味。
而當(dāng)時(shí)依賴關(guān)鍵詞的搜索引擎則有著良莠不齊的搜索結(jié)果，這也催生了 Larry Page 和 Sergey Brin 兩人想做一個(gè)更完善的搜索引擎的想法。

這篇論文提出了兩個(gè)重要的觀點(diǎn)：

首先是在廉價(jià)的硬件上搭建一個(gè)分布式系統(tǒng)，以處理大規(guī)模指數(shù)；
其次，他們使用了 Web 的超鏈接結(jié)構(gòu)作為一種有效的關(guān)聯(lián)信號(hào)。

到如今，這兩個(gè)想法已經(jīng)非常普及，而谷歌也成為了世界上最被廣泛使用的搜索引擎之一，而這篇論文所產(chǎn)生的學(xué)術(shù)影響卻依然存在：截至 2015 年，它的引用次數(shù)超過(guò)了 13000 次，而兩年之后的今天，雷鋒網(wǎng)了解到，這個(gè)數(shù)字達(dá)到了 15916 次。

想必所有人都不會(huì)想到，當(dāng)年斯坦福大學(xué)的兩個(gè)學(xué)生，只是抱著構(gòu)建「一個(gè)更令人滿意的搜索結(jié)果」系統(tǒng)的想法而開始研究，卻在這個(gè)過(guò)程中造就了一家世界巨頭公司。而如今雷鋒網(wǎng)所報(bào)道和覆蓋的每一篇論文，是否在未來(lái)也會(huì)成為力能扛鼎的學(xué)術(shù)經(jīng)典？只有時(shí)間能給我們答案。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

繼佩奇和布林的開山論文之后，谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會(huì)的法眼？

繼佩奇和布林的開山論文之后，谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會(huì)的法眼？