0
雷鋒網(wǎng) AI 科技評論按:進入2018 年已經(jīng)一周多了,而精彩紛呈的 2017 年(和元旦假期)還仿佛就在昨天。今天,谷歌大腦(Google Brain)負責人 Jeff Dean 也代表整個谷歌大腦團隊發(fā)出了對 2017 年的回顧總結。
作為頂級 AI 研究機構的谷歌大腦不僅資源豐富、人員眾多、研究方向廣泛、論文產(chǎn)量高,而且他們的研究成果還通過整個谷歌的產(chǎn)品和谷歌大腦團隊自己開放出的項目和資源深刻地影響著整個世界。相信你也和雷鋒網(wǎng) AI 科技評論一樣希望能夠總體回顧一下 2017 年中谷歌大腦的種種成果,以及看看他們?nèi)绾卧u價自己的工作。我們把這篇總結文(兩篇中的第一篇)全文翻譯如下。
谷歌大腦團隊的工作目標是通過科學研究和系統(tǒng)工程不斷推進頂級 AI 系統(tǒng)的發(fā)展,這也是整個谷歌的 AI 戰(zhàn)略的一部分。2017 年的時候谷歌大腦也發(fā)出過一篇對 2016 年工作的總結文章,這之后谷歌大腦團隊也在持續(xù)不斷地向著自己「讓機器更智能」的長期研究目標進發(fā),也和谷歌和 Alphabet 內(nèi)的許多團隊合作,把研究結果應用到真正地改善人類的生活中去。
這次谷歌對 2017 年成果的總結分為了上下兩篇,這篇是第一篇,包含基礎研究成果、開源軟件和數(shù)據(jù)集更新,以及新的機器學習硬件。在稍后的下篇中會詳細介紹一些具體應用領域中的研究,機器學習可以在其中帶來很大影響,這些領域比如醫(yī)療保健、機器人、一些基礎自然科學領域,同時也會介紹谷歌大腦在創(chuàng)造性、公平和包容性方面的努力,以及介紹一下這個團隊。
核心研究內(nèi)容
谷歌大腦團隊的關注重點是,通過科學研究增進自己對機器學習領域新問題的理解以及解決它們的能力。2017 年中谷歌的研究主題包括以下這些:
自動化機器學習的目標是開發(fā)出一些技巧,讓計算機自動解決新的機器學習問題,不再需要人類機器學習專家參與每一個新的問題的解決。如果人類想要打造真正智能的系統(tǒng)的話,這肯定會是不可或缺的基礎能力之一。谷歌大腦開發(fā)了自動設計神經(jīng)網(wǎng)絡架構的新方法,其中同時運用了強化學習和演化算法兩類技術,并把這項工作拓展到了「自動化機器學習在 ImageNet 分類和檢測中達到頂尖表現(xiàn)」論文中(https://arxiv.org/pdf/1707.07012.pdf )。這項研究同時也展現(xiàn)了如何自動學習優(yōu)化算法和高效的激活函數(shù)。谷歌大腦團隊現(xiàn)在正在與谷歌云 AI 團隊積極協(xié)作,目標是讓谷歌的客戶們也都可以使用這種技術,同時也把谷歌對這種技術的探索拓展到更多方向上去。
另一個研究主題是開發(fā)新的技術提高計算機系統(tǒng)理解和生成人類語音的能力。其中,谷歌大腦也和谷歌語音團隊合作,開發(fā)出了數(shù)種端到端語音識別技術的改善方法,把谷歌生產(chǎn)環(huán)境中的語音識別系統(tǒng)單詞錯誤率相對降低了16%。這項研究很有意思的一點是,本來中有很多獨立的研究路線在進行,而這項研究讓它們匯總到了一起。
(包括以下這些論文:
)
谷歌大腦團隊也和谷歌的機器理解團隊的研究同事們協(xié)作,共同開發(fā)了新的文本到語音生成方法(Tacotron 2),它大大提升了語音生成的質量。類似可聽電子書那種專業(yè)水準的錄制語音,平均主觀分數(shù)得分 MOS 是4.58分,之前最好的電腦生成語音系統(tǒng)得分在4.34,而這個新模型的得分為 4.53,已經(jīng)很接近人類的水平。
谷歌大腦的研究人員們持續(xù)開發(fā)著新的機器學習算法和應用手段,包括膠囊 capsules 的研究(顯式地尋找激活特征之間的一致性,作為執(zhí)行視覺任務時評估各種不同的帶噪聲假設的手段)、專家們的稀疏門組合(這可以讓大模型的計算效率仍然保持很高,https://arxiv.org/abs/1701.06538 )、超越網(wǎng)絡(用一個模型的權重生成另一個模型的權重,https://openreview.net/pdf?id=rkpACe1lx )、新類型的多模態(tài)模型(可以用同一個模型對語音、視覺、文本等不同輸入做多任務學習)、基于注意力機制的模型(作為卷積和循環(huán)模型的替代方案)、符號化和非符號化的學習到的優(yōu)化模型(http://proceedings.mlr.press/v70/bello17a/bello17a.pdf ,https://arxiv.org/abs/1703.04813 )、一種通過離散變量做反向傳播的方法(https://arxiv.org/abs/1611.01144 ),以及一些強化學習算法的新的改進方案(https://arxiv.org/pdf/1702.08892.pdf )。
用機器學習方法取代傳統(tǒng)計算機系統(tǒng)中啟發(fā)式方法的想法也讓谷歌大腦成員們覺得非常有意思。谷歌大腦已經(jīng)展示了在把計算圖映射到一組計算設備上的任務中,強化學習模型選擇的放置方法要比人類專家的選擇更好(https://arxiv.org/abs/1706.04972 )。和其它谷歌研究院的同事一起,谷歌大腦這項研究「聊一聊學習得到的索引架構」中展現(xiàn)了神經(jīng)網(wǎng)絡可以比 B 樹、哈希表、Bloom filters 等傳統(tǒng)數(shù)據(jù)結構更快、更節(jié)省空間地建立完成索引任務。谷歌大腦相信,這僅僅是探索機器學習在核心計算機系統(tǒng)中應用的開始,Jeff Dean 在 NIPS workshop 上進行的「Machine Learning for Systems and Systems for Machine Learning」演講中也描繪了他們的設想。
機器學習和安全、隱私之間的互動也一直是谷歌大腦的研究重點。在獲得 ICLR 2017 最佳論文獎的論文中,他們展示了應用機器學習時可以帶有差分隱私保障。谷歌大腦也繼續(xù)對對抗性樣本做了更多的探索,包括真實世界中的對抗性樣本(https://arxiv.org/abs/1607.02533 ),以及如何在訓練過程中生成大規(guī)模的對抗性樣本以便讓模型對它們更魯棒(https://arxiv.org/abs/1611.01236 )。
在深度學習展現(xiàn)出驚人成果的同時,理解它為什么能奏效、什么時候不能奏效也是很重要的一件事。在另一篇 ICLR 2017 獲獎論文中,谷歌大腦的研究人員們展現(xiàn)出目前的機器學習理論框架無法解釋深度學習方法的喜人成果。他們也發(fā)現(xiàn),優(yōu)化方法找到的局部極小值點的「平坦性」和泛化能力的優(yōu)秀程度之間的關系并不如人們一開始認為的那么緊密(https://arxiv.org/abs/1703.04933 )。為了更好地理解深度神經(jīng)網(wǎng)絡架構的訓練是如何進行的,谷歌大腦發(fā)布了一系列論文分析隨機矩陣,因為這也是多數(shù)訓練方法的起始點(https://arxiv.org/abs/1710.06570 )。另一個理解深度學習的重要途徑是更好地測量模型的表現(xiàn),在近期一篇比較各種 GANs 方法的論文中,谷歌大腦展現(xiàn)了好的實驗設計、統(tǒng)計嚴謹性的重要性,并且發(fā)現(xiàn)許多對生成式模型的熱門增強方法都沒能真的改進模型表現(xiàn)(https://arxiv.org/abs/1711.10337 )。谷歌大腦希望這項研究能在魯棒實驗研究方面作為其它研究者可以參考的樣例。
谷歌大腦也在研究可以讓機器學習系統(tǒng)具備更好的可解釋性的方法(https://arxiv.org/abs/1711.00867 )。2017 年三月,谷歌大腦和 OepnAI、DeepMind、YC Research 等機構一起聯(lián)合創(chuàng)立上線了 Distill 博客 http://distill.pub/ ,這是一個新的開放的在線科技文獻展示平臺,專注于幫助人類理解機器學習。它對機器學習概念的清晰解釋、文章中精彩且具備互動性的可視化工具都已經(jīng)讓它獲得了不少贊譽,比如下面這篇 CNN 激活特征可視化。在上線后的第一年中,Distill 上就已經(jīng)發(fā)表了許多嘗試理解各種機器學習方法的內(nèi)在運行原理的文章,很給人帶來啟迪,谷歌大腦也非常期待 2018 年可預計的更多、更好的文章。
MNIST、CIFAR-10、ImageNet、SVHN、WMT 這樣的開放數(shù)據(jù)集極大地推動了整個機器學習領域的發(fā)展。谷歌大腦和谷歌研究院也在過去的一年中共同積極開源了許多用于機器學習研究的有意思的新數(shù)據(jù)集,提供了更大的有標注數(shù)據(jù)集供開放訪問,包括:
YouTube-8M:標注為 4716 個不同類別的七百萬個 YouTube 視頻
YouTube-Bounding Boxes:含有 5 百萬個邊界框的 21 萬個 YouTube 視頻
Speech Commands Dataset:數(shù)千個人說的簡短控制詞匯
AudioSet:2 百萬個 10 秒長的 YouTube 視頻,標注為了 527 個不同的聲音事件
AVA:5.7 萬個短視頻中標注了一共 32 萬個動作標簽
Open Images:標記為 6000 個分類的 9 百萬張帶有創(chuàng)意共享許可的圖像
Open Images with Bounding Boxes:600 個不同類別的圖像中帶有 120 萬個邊界框
谷歌大腦團隊一直就有編寫工具來幫助更好地做機器學習研究、更好地在谷歌的各個產(chǎn)品里部署機器學習系統(tǒng)的傳統(tǒng)。2015 年 11 月,谷歌大腦開源了自己的第二代機器學習框架 TensorFlow,希望整個機器學習大家庭可以共享谷歌在機器學習軟件工具方面的這一筆投資。2017 年 2 月,TensorFlow 1.0 發(fā)布,11 月,TensorFlow 1.4 發(fā)布,都帶來了意義重大的改進:便于交互命令式編程的 Eager execution、TensorFlow 程序的編譯優(yōu)化器 XLA,以及為移動和嵌入式設備設計的 TensorFlow Lite。預編譯的 TensorFlow 庫如今已經(jīng)被超過 180 個國家的用戶下載了超過一千萬次,GitHub 上的開源項目(https://github.com/tensorflow/tensorflow )也已經(jīng)有了超過 1200 個貢獻者。
2017 年 2 月,谷歌大腦首次舉辦了 TensorFlow 開發(fā)者峰會,有超過 450 人到山景城參會,全球還有超過 6500 人觀看了線上直播,其中有 35 個國家都在當?shù)嘏e辦了超過 85 場集體觀看活動。所有的演講都有錄像(https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv ),其中包括了新特性、使用 TensorFlow 的技巧,以及觀察揭秘 TensorFlow 的底層的抽象等等內(nèi)容。2018 年 3 月 30 日谷歌大腦會再在舊金山灣地區(qū)舉行一場峰會。(雷鋒網(wǎng) AI 科技評論也會保持關注)
11 月時,TensorFlow 也迎來了自己開源后的第二個紀念日。看到圍繞 TensorFlow 建立起的活躍的、不斷發(fā)展的開發(fā)者和用戶的大家庭,谷歌大腦的成員們也都覺得非常滿足。TensorFlow 目前是 GitHub 上排名第一的機器學習平臺,也是 GitHub 上所有開源項目的前五名。大小企業(yè)和組織都在使用 TensorFlow,和 TensorFlow 相關的 GitHub 項目也有超過 2.4 萬個。如今,許多研究論文在發(fā)布時也會帶有開源的 TensorFlow 實現(xiàn)來支持他們的實驗結果,不僅讓別人更好理解他們所提的模型,也便于重現(xiàn)或者拓展他們的工作成果。
TensorFlow 也從其它谷歌研究團隊的開源的相關工作中有所受益,比如 TensorFlow 中的輕量級生成式模型庫 TF-GAN,一組用于格式模型的估計器 TensorFlow Lattice,以及 TensorFlow 物體檢測 API。TensorFlow 的開源項目中包含的模型也越來越多、越來越廣。
除了 TensorFlow,谷歌大腦還發(fā)布了深度學習 API deeplearn.js,它也是開源的,而且?guī)в杏布铀?,可以無需下載和安裝就直接在瀏覽器中運行。deeplearn.js 的主頁就有一組很棒的示范例子,包括可以用自己電腦攝像頭訓練的計算機視覺模型 Teachable Machine、一個基于實時神經(jīng)網(wǎng)絡的鋼琴合成器以及性能展示工具 Performance RNN。在 2018 年,谷歌大腦會繼續(xù)努力,讓 deeplearn.js 環(huán)境直接運行 TensorFlow 的模型變得可能。
從大約 5 年前開始,谷歌大腦的研究人員們意識到深度學習將會強烈地改變對硬件需求。深度學習計算的計算強度非常高,不過它也有兩個獨特的特點:很大程度上都是由稠密線性代數(shù)操作(矩陣乘法、向量操作等等)組成,而且降低計算精度不會帶來很大影響。他們意識到,可以利用這兩個特點構建專用的硬件,就能夠以非常高的效率構建運行神經(jīng)網(wǎng)絡。谷歌大腦向谷歌的硬件平臺團隊提供了設計輸入,然后由他們設計并生產(chǎn)出了谷歌的第一代 TPU。這是一種單芯片 ASIC,專門設計用來加速深度學習模型的推理過程。第一代的 TPU 已經(jīng)部署在谷歌的數(shù)據(jù)中心中三年了,它支持了所有谷歌搜索請求、谷歌翻譯、谷歌照片中的圖像理解、李世石和柯潔對戰(zhàn) AlphaGo 等等許許多多的研究和生產(chǎn)用途背后的深度學習模型運行。2017 年 6 月時谷歌大腦在 ISCA 2017 上發(fā)表了論文,數(shù)據(jù)表明第一代 TPU 要比同時代的 GPU 或者 CPU 競爭對手快 15 倍到 30 倍,同時每瓦性能更要高出 30 倍到 80 倍(https://arxiv.org/abs/1704.04760 )。
推理任務很重要,而訓練過程的加速其實是一個更重要的問題,同時也更難解決。5 月份在谷歌 I/O 大會公布的第二代 TPU 是一個集成的完整系統(tǒng)(定制 ASIC 芯片、電路板以及芯片互聯(lián)),它的設計目標是能夠同時加速訓練和推理過程。谷歌大腦展示了單塊設備的配置模式,以及多設備組成的深度學習超級計算機集群 TPU Pod。谷歌大腦也宣布,這些第二代 TPU 將在谷歌云平臺上作為谷歌云 TPU 向客戶提供。同時,谷歌大腦也公開了 TensorFlow 研究云(TFRC),這個項目將會給有意愿向全世界分享他們的研究成果的研究者免費提供 1000 個云 TPU 組成的計算集群的使用權。在 12 月份,谷歌大腦也展示了另一項成果,他們在 22 分鐘內(nèi)在云 TPU 集群上用 ImageNet 訓練了 ResNet-50 模型并且達到了很高精度,這項工作在以往的典型工作站上可能需要花費好幾天的時間。在谷歌大腦看來,把研究過程中的測試時間縮短到這種程度將會大幅度提高谷歌以及所有使用云 TPU 的團隊的生產(chǎn)力。對云 TPU、TPU 集群或者 TensorFlow 研究云感興趣的讀者可以在 g.co/tpusignup 注冊后了解更多信息。谷歌大腦非常期待可以讓更多的工程師和研究人員在 2018 年用上 TPU!
(本篇結束。下篇中會介紹醫(yī)療保健、機器人、多個自然科學研究領域以及創(chuàng)意領域中的機器學習的具體研究案例,以及介紹谷歌大腦在公平性和包容性方面的研究工作。敬請期待)
via GoogleBlog.com,雷鋒網(wǎng) AI 科技評論編譯。文章中所提的研究成果的具體細節(jié)歡迎閱讀我們的往期報道文章。
相關文章:
Jeff Dean領導谷歌大腦用機器學習顛覆數(shù)據(jù)索引方法,將變革傳統(tǒng)數(shù)據(jù)庫設計理念
效果超過SGD和Adam,谷歌大腦的「神經(jīng)網(wǎng)絡優(yōu)化器搜索」自動找到更好的訓練優(yōu)化器
Jeff Dean兩年AMA全盤點:26個關于谷歌大腦和機器學習未來的問題(下)
Jeff Dean兩年AMA全盤點:26個關于谷歌大腦和機器學習未來的問題(上)
谷歌大腦顛覆深度學習混亂現(xiàn)狀,要用單一模型學會多項任務
谷歌大腦撰文解析 AutoML:神經(jīng)網(wǎng)絡如何自行設計神經(jīng)架構? | Google I/O 2017
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。