2
本文作者: 三川 | 2017-05-21 16:08 | 專題:Google I/O 2017 開發(fā)者大會(huì) |
雷鋒網(wǎng)按:在谷歌 I/O 2017 的最后一日,主場(chǎng)館海岸線圓形劇場(chǎng)迎來了本屆 I/O 最具重量級(jí)的機(jī)器學(xué)習(xí)講座:由四位分屬不同領(lǐng)域的 AI 女性大牛展開巔峰對(duì)話,漫談 AI 的過去、現(xiàn)在與將來。四位嘉賓分別是語(yǔ)音識(shí)別、計(jì)算機(jī)視覺、數(shù)據(jù)可視化和生物計(jì)算領(lǐng)域的頂級(jí) AI 學(xué)者與工程師。而本場(chǎng)對(duì)話無關(guān)技術(shù),純是幾位杰出科學(xué)家對(duì)各自領(lǐng)域深度學(xué)習(xí)發(fā)展歷程的反思,以及對(duì)將來趨勢(shì)的思考。
四位嘉賓是:
Francoise Beaufays,谷歌語(yǔ)音識(shí)別技術(shù)研發(fā)帶頭人
李飛飛,谷歌云首席科學(xué)家,斯坦福 AI 實(shí)驗(yàn)室負(fù)責(zé)人
Fernanda Viegas,計(jì)算式設(shè)計(jì)(computational design)專家,谷歌 Big Picture 數(shù)據(jù)可視化部門負(fù)責(zé)人之一
Daphne Kolller,Calico Labs 首席計(jì)算官,Coursera 聯(lián)合創(chuàng)始人
本講座由谷歌云副總裁 Diane Greene 主持(以下稱”主持人“),分為三個(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)的話題分別對(duì)應(yīng) AI 的過去、現(xiàn)在與將來。
Daphne Kolller:我認(rèn)為,深度學(xué)習(xí)革命讓我們得以解決當(dāng)今各領(lǐng)域的許多現(xiàn)實(shí)難題,它讓這一切成為可能。
這場(chǎng)革命,是一系列機(jī)器學(xué)習(xí)研究進(jìn)展的結(jié)果——深度學(xué)習(xí)來臨之前,大約有 10 到 15 年相當(dāng)艱辛的研究,用于研發(fā)人工設(shè)計(jì)的模型。構(gòu)建這些模型需要大量其它領(lǐng)域的專業(yè)知識(shí),以及深入細(xì)致的思慮考量。研究人員需要人工雕琢模型的大量細(xì)節(jié),由于缺乏數(shù)據(jù),往往要用我們的直覺判斷作為構(gòu)建模型的依據(jù)。
而當(dāng)我們得到更多數(shù)據(jù),尤其在文字、圖像、語(yǔ)音領(lǐng)域,就逐漸開始用數(shù)據(jù)來替代這些主觀洞察力。但是,過去這 10 到 15 年間的技術(shù)研究成果,在今天仍然很有價(jià)值。這里有兩個(gè)方面:
在研究方法上,優(yōu)化算法便是那時(shí)發(fā)明出來的,是深度學(xué)習(xí)得以成功的關(guān)鍵技術(shù)之一。
另一方面,如今我們一廂情愿得相信,大數(shù)據(jù)是解決一切的方案。但這僅僅對(duì)應(yīng)部分領(lǐng)域。對(duì)其它領(lǐng)域而言,我們掌握的數(shù)據(jù)量充其量不過是中等,有的甚至可說是小規(guī)模。因而,仍需要在人類直覺和數(shù)據(jù)之間做平衡,充分利用兩者的長(zhǎng)處。
李飛飛:我來稍微談一談歷史背景。在所有人類的科學(xué)領(lǐng)域里,AI 是一門相當(dāng)年輕的學(xué)科,大約有 60 歲。但在我的觀點(diǎn)里,AI 啟蒙思想的根源,即對(duì)于智能的求索,可追溯到人類文明誕生的黎明時(shí)期。
大約 60 年前,機(jī)器剛剛能處理簡(jiǎn)單的算術(shù)。但以計(jì)算機(jī)科學(xué)之父阿蘭-圖靈為代表的思想家,已開始提出挑戰(zhàn)人類社會(huì)的問題:“機(jī)器是否能思考?機(jī)器是否能擁有智能?那時(shí),馬文·明斯基、John McCarthy 等計(jì)算機(jī)先驅(qū)聚到一起,創(chuàng)立了如今的人工智能學(xué)科。AI 之父?jìng)冄壑械?AI,在技術(shù)上講,與今天十分不同。但核心的愿望是一致的:讓機(jī)器能學(xué)習(xí)、思考、感知、有邏輯,能開口說話,與我們交流。
AI 已經(jīng)經(jīng)歷了幾波技術(shù)發(fā)展:從一階邏輯(first-order logic),到專家系統(tǒng)(expert systems),然后是早期機(jī)器學(xué)習(xí),再到如今的深度學(xué)習(xí)革命。
過去的 60 年,我把它稱為”in-vitro AI“,或者“AI in vitro”(雷鋒網(wǎng)注:可理解為“試管階段的 AI”)。這一階段為 AI 研究的基礎(chǔ)問題以及眾多子學(xué)科打下了基石。后者包括機(jī)器人、計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音處理、生物保護(hù)學(xué)(conbio)等等。這同樣是一個(gè)研究人員們不斷理解數(shù)據(jù)、尋找工具集的過程。
而 2010 年左右是一個(gè)分水嶺。這時(shí),三個(gè)不同領(lǐng)域的進(jìn)步終于達(dá)到了一個(gè)前所未有的里程碑高度:統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域工具的成熟、互聯(lián)網(wǎng)和傳感器帶來的大數(shù)據(jù)、摩爾定律預(yù)測(cè)的硬件計(jì)算性能提升。這三者的合力,把 AI 從 “in vitro”階段,推上了一個(gè)被我稱為 “in vivo” (雷鋒網(wǎng)注:可理解為“胚胎階段的 AI”)的全新階段。
“AI in vivo”,是一個(gè) AI 技術(shù)向世界做出實(shí)際貢獻(xiàn)的階段。當(dāng)下這個(gè)時(shí)間點(diǎn),還僅僅只是個(gè)開頭——“It‘s just the begining”。我們?cè)诠雀柙扑^察到的每一個(gè)行業(yè),都在數(shù)據(jù)、AI、機(jī)器學(xué)習(xí)的推動(dòng)下經(jīng)歷著革命性的轉(zhuǎn)變。在我眼里,這是一個(gè)歷史性的時(shí)刻:AI 終于開始發(fā)揮現(xiàn)實(shí)影響力,改造無數(shù)個(gè)行業(yè)。
我想要再?gòu)?qiáng)調(diào)一遍:一切剛剛開始?,F(xiàn)在 AI 領(lǐng)域的工具和革命性技術(shù),僅僅是廣袤海洋中的幾滴水。剩下的可探索空間,即我們能借助 AI 實(shí)現(xiàn)的事情,幾乎是無限的,再怎么夸大也不為過。對(duì)此,如果你感到興奮激動(dòng),或許是應(yīng)該的——有許多工作等著我們?nèi)プ?,來?shí)現(xiàn) “AI in vivo”。
主持人:Francoise,你處在語(yǔ)音識(shí)別研究的最前沿。當(dāng)下,語(yǔ)音識(shí)別技術(shù)已經(jīng)普及開來,能否向我們介紹下這一發(fā)展歷程?
Francoise Beaufays:當(dāng)然。12 年前我加入谷歌,那時(shí),我們都想用語(yǔ)音識(shí)別技術(shù)做點(diǎn)有用、好玩的事。但這相當(dāng)?shù)秒y——當(dāng)時(shí)語(yǔ)音的質(zhì)量完全不能和現(xiàn)在比。因此,我們從極其有限的產(chǎn)品著手,這樣識(shí)別一個(gè)人說的話并不過于復(fù)雜,然后一點(diǎn)一點(diǎn)地突破極限。我們需要做的,是打造一個(gè)成功的產(chǎn)品,讓用戶愿意使用;然后以此為基礎(chǔ),不斷收集新數(shù)據(jù)導(dǎo)入模型、不斷迭代,每次提高一點(diǎn)點(diǎn)。
按照該思路,我們開發(fā)了 GOOG-411,我不知道有多少人還記得它。它是一個(gè)手機(jī) APP:你撥打一個(gè)號(hào)碼,它會(huì)問你:查詢哪個(gè)城市或州?回答之后,它接著問:“查詢哪家公司?”說出名字之后,它會(huì)撥通該公司的電話。請(qǐng)注意,12 年前,沒有 iPhone 也沒有安卓,大家用的還是功能機(jī)。所以 GOOG-411 的功能也很基礎(chǔ)。幸運(yùn)的是,谷歌高層對(duì)該技術(shù)的前景抱有憧憬,支持我們盡可能得打破技術(shù)極限。
當(dāng)時(shí)我們很成功。然后 iOS 和安卓誕生,一切都變了——用戶有了視覺反饋。于是我們開始構(gòu)想其他的 APP 產(chǎn)品,那便是 Voice Searchv用語(yǔ)音進(jìn)行谷歌搜索。我們開始做語(yǔ)音轉(zhuǎn)錄,把麥克風(fēng)整合進(jìn)手機(jī)功能的各個(gè)入口,讓用戶可以用語(yǔ)音做任何事。
更后來,我們?cè)噲D把語(yǔ)音識(shí)別技術(shù)帶到家庭場(chǎng)景,比如 Google Home 這樣的設(shè)備。用語(yǔ)音來處理日常任務(wù),是一個(gè)呼聲很高的訴求。我們認(rèn)為智能助手是一個(gè)很好的入口。相比用口頭命令做簡(jiǎn)單的事,智能助手可以用日常的自然語(yǔ)言與用戶問答,而不是麻煩的鍵盤打字輸入,使谷歌真正成為用戶的個(gè)人助手。
主持人:Fernanda,你曾表示要讓數(shù)據(jù)可視化民主化。如何才能實(shí)現(xiàn)?必要性在哪里?數(shù)據(jù)可視化分析又是如何進(jìn)化的?
Fernanda Viegas:十多年前,我已經(jīng)在從事數(shù)據(jù)可視化。當(dāng)時(shí)的情況很不一樣:研究非常困難,設(shè)備和現(xiàn)在不能比,能獲得的數(shù)據(jù)也很少,大多數(shù)并不公開。
這情況逐漸改善,現(xiàn)在,數(shù)據(jù)可視化已可說是無處不在。比如,媒體也喜歡在數(shù)據(jù)可視化的幫助下,用統(tǒng)計(jì)數(shù)字表達(dá)復(fù)雜的新聞事件。我們喜歡的一個(gè)玩笑是:“對(duì)于統(tǒng)計(jì),數(shù)據(jù)可視化是一道毒品”——你可能都不會(huì)意識(shí)到自己在做統(tǒng)計(jì),因?yàn)閿?shù)據(jù)可視化是如此善于在視覺上找規(guī)律、找異常。
數(shù)據(jù)可視化一直在一條更加民主化的軌道上。長(zhǎng)久以來,AI、機(jī)器學(xué)習(xí)有一項(xiàng)重大挑戰(zhàn):如何讓我們?nèi)祟惱斫獬呔S數(shù)據(jù)。這方面,Geoffrey Hinton 和同事們搞出的 t-SNE,堪稱是 AI 領(lǐng)域的革命性數(shù)據(jù)可視化工具。它在數(shù)據(jù)可視化發(fā)展史上是一項(xiàng)相當(dāng)關(guān)鍵的里程碑。我和飛飛有類似的感覺:我們正處于如何利用數(shù)據(jù)可視化技術(shù)推動(dòng) AI 進(jìn)步的起點(diǎn)。
Francoise Beaufays:語(yǔ)音識(shí)別從來都是基于機(jī)器學(xué)習(xí),與更早期無關(guān)機(jī)器學(xué)習(xí)的技術(shù)沒什么關(guān)系。過去三十年間,機(jī)器學(xué)習(xí)技術(shù)一直在進(jìn)化,語(yǔ)音識(shí)別也不斷進(jìn)步,其中一個(gè)大轉(zhuǎn)折點(diǎn)是神經(jīng)網(wǎng)絡(luò)的采用。這距今不到八年,但基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究在很久以前就已開始。只是由于計(jì)算能力的限制,這條路在產(chǎn)生大量成果之后被學(xué)界放棄,直到幾年前重新采用。這期間,語(yǔ)音識(shí)別基于更基礎(chǔ)的技術(shù),仍然在發(fā)展提升,例如 Gaussian 混合模型。
在技術(shù)上,采用深度學(xué)習(xí)確是一項(xiàng)較艱巨的工作,牽扯到延遲、規(guī)模、訓(xùn)練能力等問題。當(dāng)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)在生產(chǎn)環(huán)境部署,這打開了一扇嶄新的大門,背后是一系列的提升。另外,由于有了強(qiáng)大的計(jì)算硬件支持,我們能快速地從一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換到另一個(gè)。因此,我們開始探索 RNN(比如 LSTM)、CNN、基于 CTC 的序列建模等其他模型。簡(jiǎn)而言之,采用神經(jīng)網(wǎng)絡(luò),為我們開啟了在支撐谷歌產(chǎn)品的核心技術(shù)上不斷創(chuàng)新的新空間。
主持人:這是用于語(yǔ)音識(shí)別的神經(jīng)網(wǎng)路,我們?cè)賮砺犅犇苎娱L(zhǎng)壽命、讓我們更健康的神經(jīng)網(wǎng)絡(luò)。Daphne,給我們講講為什么 Calico Labs 需要你這位世界最頂級(jí)的分子生物學(xué)與機(jī)器學(xué)習(xí)專家之一,你在那做什么?
Daphne Kolller:很多人可能沒聽說過 Calico,我們的曝光很少。做個(gè)簡(jiǎn)介,Calico 是最早剝離谷歌,直接歸屬 Alphabet 的子公司。Calico 的目標(biāo)是理解衰老,幫助人們活得更長(zhǎng)、更健康。
衰老其實(shí)是我們所面臨的最大的死亡風(fēng)險(xiǎn),沒有之一。這對(duì)幾乎所有 40 歲之前發(fā)生的疾病都成立:當(dāng)患者一年一年老去,死于該病的風(fēng)險(xiǎn)會(huì)指數(shù)級(jí)得增長(zhǎng),糖尿病、心腦血管疾病、癌癥均是如此。
但諷刺的是,沒人真正知道為什么。
沒人知道為什么在 40 歲之后,每一年過去,都會(huì)給我們?cè)黾铀烙谶@些疾病的風(fēng)險(xiǎn)。為了對(duì)此進(jìn)行理解,我們很有必要研究導(dǎo)致衰老的生物系統(tǒng)機(jī)制,從分子層面一直到系統(tǒng)層面。雖然我不認(rèn)為我們能永生,但也許通過技術(shù)手段介入,我們能活得更久更健康。
Calico 早期有一名研究人員,其研究顯示:僅僅某單個(gè)基因的變異,就能延長(zhǎng)機(jī)體 30%-50% 的壽命。而且,我們不僅會(huì)活得更長(zhǎng),還會(huì)以更年輕的面貌、更飽滿的健康狀態(tài)生活。
但實(shí)現(xiàn)這些需要搞清楚許多尚不明了的東西,還需要收集所有生物系統(tǒng)在所有年齡狀態(tài)下的海量數(shù)據(jù),包括酵母、蟲子、蒼蠅、老鼠、人——為什么這些不同物種在分子層面發(fā)生著同樣的事?
幸運(yùn)的是,過去二十年間,科學(xué)家們發(fā)明出一整套衡量機(jī)制與方法,收集數(shù)據(jù)并試著幫我們理解衰老中的機(jī)體。這包括基因測(cè)序技術(shù)、微流體、跟蹤設(shè)備,記錄機(jī)體如何隨衰老發(fā)生變化。但是,沒人能把這些不同測(cè)量機(jī)制所產(chǎn)生的、從微分子層面一直到人口學(xué)層面的數(shù)據(jù)整合到一起。
如何整合所有信息,精確描繪出人體如何衰老的過程?
這就需要生物學(xué)家和機(jī)器學(xué)習(xí)專家之間的合作,后者能建立模型,整合所有信息。
我屬于少數(shù)極幸運(yùn)的人,能在該領(lǐng)域的萌芽時(shí)期就投身進(jìn)來:在 2000s 年早些時(shí)候開始從事計(jì)算生物學(xué)(computational biology)。如果說,我的機(jī)器學(xué)習(xí)算是母語(yǔ)造詣,我的生物學(xué)就在“流利”水平。這使我能夠與 Calico 的科學(xué)家們共事,在兩門學(xué)科之間建立真正的合作紐帶,開發(fā)能結(jié)合兩個(gè)世界的優(yōu)點(diǎn)——大數(shù)據(jù)和人類直覺的模型。
由于生物機(jī)體的復(fù)雜度實(shí)在太高,即便是今天這個(gè)量級(jí)的數(shù)據(jù),我也不認(rèn)為僅用數(shù)據(jù)就能重建生物體從頭到尾的完整模型。正如我在講座的開頭所講:數(shù)據(jù),和頂級(jí)科學(xué)家的直覺,我們都需要;用以最終建立對(duì)衰老的深度理解,并預(yù)測(cè)有效的干預(yù)方式。
主持人:下面聊聊計(jì)算機(jī)視覺(CV)。飛飛,有次在 TechCrunch,你說 CV 是 AI 的殺手級(jí)應(yīng)用,你想表達(dá)什么?你一直提倡的 AI 民主化又是什么意思?這跟云計(jì)算有什么聯(lián)系?
李飛飛:我當(dāng)時(shí)是想推動(dòng)更多人認(rèn)識(shí)到這一點(diǎn)。我堅(jiān)信這一點(diǎn)。當(dāng)時(shí)的原話是:“很多人問 CV 的殺手級(jí)應(yīng)用是什么?我會(huì)說:CV 本身就是殺手級(jí)應(yīng)用,AI 的殺手應(yīng)用?!?/strong>
我會(huì)這么說,有兩個(gè)理由:
五億四千萬(wàn)年前,生物進(jìn)化史上發(fā)生了濃墨重彩的一筆:由于某些不知名的原因,地球上的物種種類從極少,一下子爆發(fā)為極多。這被看作是進(jìn)化史上的宇宙大爆炸——被稱為寒武紀(jì)大爆發(fā)。對(duì)其背后的原因,生物學(xué)家迷惑了許多年。直到最近,一個(gè)非常有說服力的理論浮出水面。這個(gè)猜想是:那時(shí),生物進(jìn)化出了眼睛。一下子,動(dòng)物的生存變得主動(dòng):有了獵食者,有了被獵食者,整個(gè)物種進(jìn)化軌跡從此天翻地覆。
今天,人類是最智能的視覺動(dòng)物。大自然把我們腦容量的一半都分配給了視覺圖像處理,正是由于其重要性。
至于第二個(gè)理由,據(jù)估計(jì),互聯(lián)網(wǎng)上超過 80% 的內(nèi)容,為視覺內(nèi)容。另外,傳感器收集的第一大數(shù)據(jù)形式,是由可見光或不可見光組成的圖像數(shù)據(jù)。無論在哪里,對(duì)于公司、消費(fèi)者來說,以像素形式出現(xiàn)的數(shù)據(jù)都是最珍貴的。
和語(yǔ)音識(shí)別類似,有了深度神經(jīng)網(wǎng)絡(luò)之后,CV 實(shí)現(xiàn)了多項(xiàng)突破和長(zhǎng)足進(jìn)步。在我看來,從 2010 到 2017 的七年間,CV 最主要的進(jìn)步發(fā)生在基礎(chǔ)的感知任務(wù)領(lǐng)域(perception task):物體識(shí)別、圖像標(biāo)注、物體檢測(cè)等。我們也已經(jīng)有了應(yīng)用產(chǎn)品——谷歌照片(Google Photos)、自動(dòng)駕駛汽車的行人檢測(cè)系統(tǒng)等。
我認(rèn)為,下一波對(duì) CV 的投資,將集中于 “Vision+X”,即 CV 和其他領(lǐng)域的結(jié)合應(yīng)用。比如說,視覺在溝通、語(yǔ)言中是如此重要,CV 和語(yǔ)言的結(jié)合,會(huì)非常有意思。醫(yī)療、生物領(lǐng)域的視覺應(yīng)用更不必說。機(jī)器人是另一個(gè)有無限潛力的 CV 應(yīng)用領(lǐng)域。人類研究機(jī)器人的歷史幾乎和 AI 一樣久,但現(xiàn)在,機(jī)器人仍處在一個(gè)非常原始的階段。究其原因,這在很大程度上是由于其原始的感知系統(tǒng)(想想寒武紀(jì)大爆炸)。
簡(jiǎn)而言之,我的確認(rèn)為視覺是機(jī)器智能最重要的構(gòu)成要素之一。
主持人:我們時(shí)間不多了,F(xiàn)ernanda,能否講講你眼中數(shù)據(jù)可視化的未來在哪里?
Fernanda Viegas:當(dāng)然。順著剛才飛飛的思路,既然人類有這么復(fù)雜的視覺系統(tǒng),我們不妨用它來理解機(jī)器做的事。機(jī)器學(xué)習(xí)運(yùn)行于海量的數(shù)據(jù)、統(tǒng)計(jì)數(shù)字、概率,在某種意義上,可視化是幫助我們理解這些東西的秘密武器。
為什么我們應(yīng)該重視數(shù)據(jù)可視化?這有三點(diǎn):
可解釋性。你是否能解釋模型輸出的東西?
漏洞可修補(bǔ)性。更好地理解模型,能幫助你修補(bǔ)漏洞。
教育??梢暬跈C(jī)器學(xué)習(xí)教學(xué)中扮演了重要角色。另外,如果我們利用可視化更好地理解了機(jī)器學(xué)習(xí)系統(tǒng),我們能否從這些系統(tǒng)中學(xué)習(xí),提升職業(yè)水平?
最后,我想講一個(gè)有意思的例子,我們用數(shù)據(jù)可視化發(fā)現(xiàn)了機(jī)器學(xué)習(xí)系統(tǒng)中原本并不知道的東西。前段時(shí)間,谷歌實(shí)現(xiàn)了 zero-shot 翻譯,即谷歌翻譯能處理未遇到過的語(yǔ)言組。研究人員對(duì)此產(chǎn)生了一個(gè)疑問:該系統(tǒng)的多語(yǔ)種數(shù)據(jù)空間是按照何種規(guī)律分布的?比如說,數(shù)據(jù)是按語(yǔ)種劃分?還是,系統(tǒng)把不同語(yǔ)種混到一起,“學(xué)到”了一些語(yǔ)法、語(yǔ)義的規(guī)律?
于是,我們開發(fā)了一個(gè)數(shù)據(jù)可視化工具來進(jìn)行查看。結(jié)果發(fā)現(xiàn),不同語(yǔ)種但相同語(yǔ)義的句子,組成同一個(gè)簇。不同句子形成一個(gè)個(gè)不同的簇,而無分語(yǔ)種。某種程度上,這可以說是世界通用語(yǔ)言的雛形,我們把這成為“interlingual”,即“跨語(yǔ)言的”。另外,我們發(fā)現(xiàn),哪些相對(duì)更隔離的簇,都是翻譯質(zhì)量不高的語(yǔ)句。這告訴了我們,數(shù)據(jù)空間的幾何分布是有涵義的。
目前為止,AI 仍讓人感覺到強(qiáng)烈的工程導(dǎo)向?qū)傩?。我很期待在將來,藝術(shù)家、UI 設(shè)計(jì)師、科學(xué)家會(huì)為 AI 帶來什么,有哪些我們?nèi)聪氲竭^的可能性?這些會(huì)很值得探索。
主持人:Francoise,我想問你數(shù)據(jù)可視化會(huì)如何幫助語(yǔ)音識(shí)別(笑)。但我同樣想問你:如今數(shù)據(jù)越來越復(fù)雜,比如訓(xùn)練模型的標(biāo)記數(shù)據(jù),還有越來越多的個(gè)性化,語(yǔ)音識(shí)別技術(shù)在走向何方?又有哪些令人興奮激動(dòng)的挑戰(zhàn)?
Francoise Beaufays:在語(yǔ)音識(shí)別領(lǐng)域,每當(dāng)遭遇一個(gè)新難題,我們必須要專注在它上面。我們開發(fā) Youtube 兒童頻道的時(shí)候,就必須要專注于孩子的聲音——他們的說話方式、音域、斷句方式都和成年人不一樣。最終,我們找到了把學(xué)習(xí)成果加入通用模型的方法。因而 Google Home 現(xiàn)在能與兒童正常交互。
對(duì)于我們而言,Google Home 又是一個(gè)新環(huán)境,我們需要收集新數(shù)據(jù)。有了新數(shù)據(jù)之后,將其導(dǎo)入模型進(jìn)行訓(xùn)練就變得簡(jiǎn)單直接。但是,第一次發(fā)布 Google Home 的時(shí)候,并沒有用戶數(shù)據(jù)。因此,我們做了許多模擬:采集數(shù)據(jù),添加不同類型的噪音,在數(shù)據(jù)上做不同類型的混響(reverberation)。事實(shí)上,我們用的數(shù)據(jù)足以稱得上是海量。我們轉(zhuǎn)錄了數(shù)萬(wàn)小時(shí)的語(yǔ)音,然后與模擬疊加增殖,最后導(dǎo)入模型的數(shù)據(jù),相當(dāng)于是數(shù)個(gè)世紀(jì)的語(yǔ)音。
世界上有如此之多的語(yǔ)言,語(yǔ)言學(xué)家說,光是使用人數(shù)在 10 萬(wàn)人以上的,就有 1342 種。我們?nèi)绾蜗蛉绱酥嗟恼Z(yǔ)種服務(wù)?這是一個(gè)需要在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)揮很多創(chuàng)造性的難題。
李飛飛:我相信 AI 是第四次工業(yè)革命的驅(qū)動(dòng)力量之一。我從一個(gè)哲學(xué)家那里聽來的、一句我最喜歡的話是這樣的:“獨(dú)立的機(jī)器價(jià)值觀并不存在,人類價(jià)值觀就是機(jī)器價(jià)值觀”。我很期待 在將來,來自各門學(xué)科的技術(shù)專家在 AI 領(lǐng)域發(fā)揮所長(zhǎng),只有這樣,才能真正為全人類開發(fā) AI,而不是為一部分人而研發(fā)。
Daphne:作為一名頂級(jí)機(jī)器學(xué)習(xí)專家,如果在五年前,有人問我五年后機(jī)器是否能像人類一樣準(zhǔn)確用文字注解圖像,我會(huì)說不可能,二十年后還差不多。但由于飛飛等科學(xué)家的努力,這一天比我預(yù)想的早很多就到來了。
我離開 Coursera 重回生物領(lǐng)域的原因,是因?yàn)槲艺J(rèn)為生物技術(shù)現(xiàn)在已經(jīng)到了指數(shù)級(jí)增長(zhǎng)曲線的那個(gè)拐點(diǎn)。如果我們看看人類基因測(cè)序的歷史趨勢(shì),其指數(shù)每七個(gè)月就翻倍,增長(zhǎng)速度是摩爾定律的兩倍。按照該趨勢(shì)預(yù)測(cè) 2025 年的接受了基因測(cè)序的人口數(shù)量,保守估計(jì)是 1 億,正常估計(jì)是 20 億。而這只是測(cè)序,還沒有包含 RNA、蛋白質(zhì)組、人體成像、細(xì)胞成像等等。
人體,是人類迄今所遇見的最復(fù)雜系統(tǒng)。我認(rèn)為,我們正處于理解這一系統(tǒng)的開端——到底是什么讓我們活著?什么讓我們邁向死亡?我認(rèn)為,有今天這一量級(jí)的數(shù)據(jù)以及不斷進(jìn)步的機(jī)器學(xué)習(xí)技術(shù),我們完全有機(jī)會(huì)用 AI 革新科學(xué)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章