丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

繼佩奇和布林的開山論文之后,谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會的法眼?

本文作者: 奕欣 2017-04-06 18:19
導(dǎo)語:這篇論文發(fā)表于 2000 年的第九屆萬維網(wǎng)大會(WWW)上,在接下來的 17 年里呈現(xiàn)它非凡的影響力。

2017 年的The Seoul Test-of-Time Award 頒給了《Graph Structure in the Web》,這可謂是實(shí)至名歸。

雷鋒網(wǎng)了解到, Seoul Test-of-Time Award 是國際萬維網(wǎng)大會上特設(shè)的一個獎項(xiàng),主要是為了表彰多年來對科學(xué),技術(shù)或社會產(chǎn)生了重大影響的論文。

根據(jù)維基百科的介紹,在韓國首爾舉行的 WWW 2014 時,組委會決定在下一年的 WWW 大會上評選這一獎項(xiàng),因而得名“The Seoul Test-of-Time Award ”。

《Graph Structure in the Web》這篇論文最初發(fā)表于 2000 年的第九屆 WWW 上,論文指出了「萬維網(wǎng)的圖表結(jié)構(gòu)」,堪稱開創(chuàng)性研究。論文作者包括谷歌的 Andrei Broder, IBM 的 Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan 和 Andrew Tomkins,以及合作成員 Farzin Maghoul, Raymie Stata 和 Janet Wiener。

彼時,它已經(jīng)在 WWW 大會上獲得了最佳論文獎,并在接下來的 17 年里呈現(xiàn)它非凡的影響力,在 ACM Digital Library 上的累計(jì)引用次數(shù)超過 3500 次。

那么這篇論文到底有何經(jīng)典之處呢?雷鋒網(wǎng)了解到,本文對互聯(lián)網(wǎng)結(jié)構(gòu)的研究做出了兩個重要的貢獻(xiàn)。

首先,它進(jìn)行的大規(guī)模實(shí)驗(yàn),顯示 Web 節(jié)點(diǎn)是根據(jù)冪律分布的。也就是說,Web 的節(jié)點(diǎn)具有 i 個傳入鏈接的概率大致與 1/i2.1 成正比。

其次,與以前幾乎全連接的 Web 研究不同的是,論文描述的是一種更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),也就是如今非常標(biāo)志性的「弓箭」(bowtie)狀(如圖所示):

繼佩奇和布林的開山論文之后,谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會的法眼?

作者提出了一個精簡的 Web 圖形模型,并描述了 Web 頁面的幾個特征:

  • 強(qiáng)連接的核心組件:每個頁面都可以從任意其它頁面訪問;

  • IN/OUT 簇:也就是說,它只具有到核心或來自核心的單向路徑;

  • 兩簇之間以卷須(tendrils)連接,還有其它繞過核心與簇連接的通道,還有與其它部分完全隔絕的組件。

  • 核心組件是全連接的,每個節(jié)點(diǎn)都能從任何節(jié)點(diǎn)到達(dá)。

作者 Broder 等人發(fā)現(xiàn),比起以往的研究,實(shí)際上 Web 的結(jié)構(gòu)更加松散,而任何兩個給定頁面的互連概率少于 1/4。

有意思的是,這個 1999 年完成的研究是通過兩個 Altavista 爬蟲爬行了 2 億個頁面與 15 億個鏈接而得到的。而今天,谷歌僅僅在 App 里就需要索引超過 1000 億條連接,爬蟲需要處理超過 130 億個網(wǎng)址。

而 Broder 等人提出的 Web 宏觀結(jié)構(gòu)為大量的爬蟲及搜索網(wǎng)絡(luò)研究提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),也對現(xiàn)代搜索引擎架構(gòu)產(chǎn)生了深遠(yuǎn)影響。

值得一提的是,首屆「Seoul Test-of-Time Award」于 2015 年頒給了谷歌的創(chuàng)始人 Larry Page 和 Sergey Brin,以紀(jì)念他們在 1998 年第七屆 WWW 大會上發(fā)表的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》。

這篇論文正是 Google 的孕育之地,兩人在論文中提及:

「我們選擇 Google 作為系統(tǒng)的名字,它是數(shù)學(xué)大數(shù)『googol』的常見的一個錯誤拼寫,即 10100,我們也希望能夠構(gòu)建一個覆蓋海量信息的搜索系統(tǒng)」也就是說,WWW 大會實(shí)際上也是谷歌首度正式亮相的舞臺。

Google 是一個大范圍搜索引擎原型,通駝有效地抓取及索引 Web 頁面,產(chǎn)生比現(xiàn)有系統(tǒng)更加令人滿意的搜索結(jié)果。設(shè)計(jì)一個搜索引擎在當(dāng)時具有其必要性:

  • 網(wǎng)絡(luò)頁面的大量增長讓用戶通常采用 Yahoo!這樣的上網(wǎng)導(dǎo)航網(wǎng)站,但存在的缺點(diǎn)在于網(wǎng)站的選擇具有主觀性,構(gòu)建與維護(hù)網(wǎng)站需要大量成本,而且更新時效慢,也無法覆蓋「蘿卜青菜,各有所愛」的大眾口味。

  • 而當(dāng)時依賴關(guān)鍵詞的搜索引擎則有著良莠不齊的搜索結(jié)果,這也催生了 Larry Page 和 Sergey Brin 兩人想做一個更完善的搜索引擎的想法。

這篇論文提出了兩個重要的觀點(diǎn):

  • 首先是在廉價(jià)的硬件上搭建一個分布式系統(tǒng),以處理大規(guī)模指數(shù);

  • 其次,他們使用了 Web 的超鏈接結(jié)構(gòu)作為一種有效的關(guān)聯(lián)信號。

到如今,這兩個想法已經(jīng)非常普及,而谷歌也成為了世界上最被廣泛使用的搜索引擎之一,而這篇論文所產(chǎn)生的學(xué)術(shù)影響卻依然存在:截至 2015 年,它的引用次數(shù)超過了 13000 次,而兩年之后的今天,雷鋒網(wǎng)了解到,這個數(shù)字達(dá)到了 15916 次。

想必所有人都不會想到,當(dāng)年斯坦福大學(xué)的兩個學(xué)生,只是抱著構(gòu)建「一個更令人滿意的搜索結(jié)果」系統(tǒng)的想法而開始研究,卻在這個過程中造就了一家世界巨頭公司。而如今雷鋒網(wǎng)所報(bào)道和覆蓋的每一篇論文,是否在未來也會成為力能扛鼎的學(xué)術(shù)經(jīng)典?只有時間能給我們答案。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

繼佩奇和布林的開山論文之后,谷歌團(tuán)隊(duì)又有哪篇經(jīng)典入了WWW大會的法眼?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說