1
目前,Google 正在對其核心搜索算法進行一項修改,該算法的改變可能會對多達 1/10 的搜索結果排名造成影響。而 Google 是如何修改其搜索算法的呢?關于 Google 修改算法的技術,雷鋒網(wǎng)援引相關文章進行了不改變原理的編譯。
【 圖片來源:THE VERGE 所有者:THE VERGE 】
據(jù)悉,這一修改是基于 Google 研究人員開發(fā)的前沿自然語言處理技術(NLP),它在十個月前就已經(jīng)應用于其搜索產(chǎn)品中。Google 聲稱,它可以通過更好地理解單詞在句子中的相互關系來改善結果。此前,Google 在一次新聞發(fā)布會上討論過一個例子,他們的搜索算法能夠解析短語的含義——“Can you get medicine for someone pharmacy?”
Google 研究員兼搜索副總裁 Pandu Nayak 表示,舊的 Google 搜索算法是將這句話視為“詞袋”。因此,它會查看那些重要的單詞,即“medicine”和“pharmacy”,然后再簡單地返回本地結果。而新的算法能夠理解 “for someone” 這個詞的語境,從而意識到這是一個關于你是否能向別人拿處方的問題,然后返回到正確的結果。
據(jù)了解,調(diào)整后的算法基于 BERT(雷鋒網(wǎng)按,Bidirectional Encoder Representations from Transformers),即“變壓器的雙向編碼器表示”。重要的是,BERT 不是把句子當做“詞袋”來對待的,而是把句子中的所有單詞作為一個整體來看待,這么做能夠讓它意識到“for someone”對句子的意義至關重要, 是不能夠被省略的。
值得一提的是,BERT 是通過自我學習去注意到這些詞的。Google 搜集了一個英語句子的語料庫,隨機刪除了 15% 的單詞,然后 BERT 被設置去指出被刪的單詞是什么。對此,高級研究員和研究高級副總裁 Jeff Dean 表示,隨著時間推移,這種訓練會使 NLP 模型更有效地理解上下文。
另外,Google 還引用了另一個例子——“parking on a hill with no curb”。其中,“no”一詞對句子的查詢至關重要;但在實現(xiàn) BRET 算法之前的 Google 算法是忽略了這一點的。
【 圖片來源:THE VERGE 所有者:THE VERGE 】
Google 表示,在過去的幾天里,他們已經(jīng)推出了新的算法,新算法應該會影響到美國 10% 的英語搜索查詢(其它語言和國家暫不討論)。
雷鋒網(wǎng)了解到,為了確保能夠改進結果,所有對搜索的更改都要經(jīng)過一系列的測試。在這些測試中,其中有一項是用 Google 的人工審核隊伍來評估搜索結果的質(zhì)量,以此來訓練該公司的算法。不僅如此,Google 還進行了 live A/ live B 測試。
要知道,不是每次查詢都會受到 BERT 的影響,它只是 Google 用來對搜索結果排序的許多不同的工具中最新的一個。至于它們是如何協(xié)同合作的,這還是一個謎。其實,Google 有意讓其中的一些過程保持神秘,以防止有人利用它的系統(tǒng)發(fā)送垃圾郵件。
而另一個重要的原因是:當電腦利用機器學習做決定時,很難知道為什么它要作出這些選擇。這就涉及到機器學習的“黑匣子”問題,如果結果在某種程度上是錯誤的話,是很難診斷出原因的。
Google 表示,他們已經(jīng)努力確保將 BERT 添加到算法中不會增加偏差——這是機器學習的一個常見問題,機器學習的訓練模型本來就存在偏差。此外,由于 BERT 是在一個巨大的英語句子語料庫中訓練的,并且這個語料庫也有固有偏見,因此,這也是一個值得關注的問題。
Google 還表示,他們預計自己的算法不會引導流量產(chǎn)生什么重大變化,至少在大型出版商看來是這樣的。事實上,只要 Google 的搜索算法出現(xiàn)變化,整個網(wǎng)路都會關注。
另外,值得一提的是,由于 Google 的搜索排名有了變化,一些公司也變得生死未卜。其實,每個通過網(wǎng)絡流量賺錢的人都應該注意這一點。當提及搜索結果的質(zhì)量時,Payak 表示:
這是最大的一個......這是我們在過去 5 年里所經(jīng)歷的最積極的變化,可能也是自一開始以來最大的變化之一。
雷鋒網(wǎng)注:本文編譯自 Dieter Bohn 發(fā)表在 The Verge 上的文章。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。