0
雷鋒網(wǎng) AI 科技評論按:2017年馬上就要過去了,而 AI 也在2017年中得到了快速發(fā)展。研究人員們提出了很多有趣而又富有開創(chuàng)性的工作。而作為 AI 從業(yè)人員的我們,也不禁會對明年 AI 的發(fā)展有了更多的憧憬。這里,我們?yōu)榇蠹曳钌蠙C器學習學者 Alex Honcha 所展望的 2018 年最可能產(chǎn)生突破的 AI 領(lǐng)域。
下面是雷鋒網(wǎng)對原文的部分編譯。
大家好!2017年是機器學習世界中,最有成效和最有創(chuàng)意的一年。大家已經(jīng)可以看到許多的博客文章,甚至是官方報道,來總結(jié)研究和行業(yè)突破。我想分享一些不同的東西,通過三篇文章,從下面三個不同的視角分析 AI 方面明年會有什么進展:
作為一個推動行業(yè)發(fā)展的 AI 研究者(本文)
作為一個將機器學習應(yīng)用到工業(yè)界的開發(fā)者
作為一個生活在新世界中的普通人
我在這篇文章中的預測,是基于 2012 年以來學術(shù)界和科技巨頭實驗室的研究思路的演變。我選擇了一些處于初步發(fā)展階段的領(lǐng)域,但是它們已經(jīng)準備充分,可以進行深入研究并可能在 2018 年取得突破性進展,并最終在 2019-2020 年真正地被應(yīng)用到現(xiàn)實中去。
來自其他科研領(lǐng)域?qū)Φ娜耸拷?jīng)常會有一個問題:那些AI的家伙研究的怎么這么快?
首先,大多數(shù)機器學習領(lǐng)域的文章并不會在期刊上發(fā)表,而是發(fā)表在會議上,同時還有即時的 arXiv 預印本,所以研究者可以隨時看到最新的研究成果,而不是等到發(fā)出文章之后的好幾個月。
其次,我們不發(fā)布「順勢」的文章:為了使得文章能夠發(fā)表,我們必須提出最高水平的或者能夠與目前最高水平方法相近的新方法。另外,新方法需要在不同的指標下接受檢驗:速度,準確度,并行執(zhí)行,數(shù)學證明,處理不同大小的數(shù)據(jù)集等。這使得方法的泛化能力大大提升。
最后,所有的主要文章都開源了算法的實現(xiàn),所以結(jié)果可以被其他人運行,進行多重檢驗,甚至可以進一步改進。
現(xiàn)代 AI 研究最酷的一件事是以「博客」的形式發(fā)表文章,我們可以在 DeepMind、OpenAI、Salesforce、IBM 的博客中看到他們的最新進展,研究結(jié)果以清晰易懂的方式展示出來,所以即使是遠離科研的人也能夠很容易理解這些很「酷」的技術(shù)。我個人很喜歡的 Distill pub 就是一個很好的例子。
這些都是真正的科研期刊,但是文章看起來更像是帶插畫的博客。當然,想要寫好這種文章需要大量的工作,但是只有這種形式的才能吸引到更多的人。一般情況下,這些文章可以將結(jié)果同時展示給:研究人員,開發(fā)者,以及投資者。這種結(jié)果展示方式無疑更加高效,我相信在接下來的幾年中,有越來越多的研究成果會以這種方式呈現(xiàn)。
我們考慮這樣一個簡單的問題:
取 50 本阿拉伯語書,16 本德語書,以及 7 本烏克蘭語書,要求你學會將阿拉伯語翻譯到到烏克蘭語,以及將烏克蘭語翻譯到德語。
你能夠做到嗎?我打賭不能。但是機器已經(jīng)做到了這點!在 2017 年,兩個突破性的文章被發(fā)表:「Unsupervised Machine Translation Using Monolingual Corpora Only」,「Unsupervised Neural Machine Translation」。機器翻譯基本的想法是將意思相似的句子放在一起,訓練一些通用人類語言表達空間。這種想法并不新鮮,但是目前最新的方法已經(jīng)不需要明確的成對的德語-阿拉伯語句子了。
一種多語言表示空間的示例
這幾篇文章的作者聲稱,只要很少的監(jiān)督,模型翻譯的質(zhì)量就可以急速上升。我預計這項研究會在2018年夏天至年底完成。這種監(jiān)督,而又不是真正監(jiān)督學習的思想,將會而且一定會拓展到其他領(lǐng)域。
我們已經(jīng)創(chuàng)造出了能夠超越人類的計算機視覺系統(tǒng),這多虧了各種更深,更寬,以及更密集連接的網(wǎng)絡(luò)。
物體檢測準確度變化 來自 http://aiindex.org/2017-report.pdf
但是目前的成果僅限于靜態(tài)圖像,然而現(xiàn)實中人類更習慣于用眼睛觀察圖像序列、視頻或者就是真實的世界,所以我們需要將計算機視覺方法應(yīng)用到視頻中,并使得它們能夠像處理靜態(tài)圖像那樣快。
然而,說實話,在靜態(tài)圖像上檢測 1000 個物體會變得非常無聊,而且一點也不 sexy。
在最近的 NIPS 2017 中出版了一些關(guān)于下一幀預測和視頻表征學習的有趣的結(jié)果。下面提供了一些大家可以嘗試使用和研究的幾個模型:改進的注意力模型、在視頻中使用光流概念(optical flow)、使用循環(huán)結(jié)構(gòu)以高效處理大視頻。
https://research.google.com/youtube8m/
在我們觀察周圍的世界的時候,我們不僅僅看到了移動的圖像:還聽到了聲音,感受到外面的溫度,還能感受到一些情緒。這意味著我們從不同的來源「看到」了我們周圍的世界,我們稱這種源為模態(tài)。而且,即使只“看到”一種模態(tài),比如聽到了一段人說話的聲音,我們不僅僅是把它像語音識別系統(tǒng)一樣翻譯成文字,我們也能懂得說話人的性別和年齡,以及交談的人的情緒。我們能夠同時理解不同的事物。我們希望機器也能具有這樣的能力。
人類能夠從一張圖片中得到幾百個結(jié)論,為什么機器不行呢?
目前并沒有很多用于解決多任務(wù)問題的數(shù)據(jù)集,但是牛津大學最近提出了多模態(tài)圖像識別的數(shù)據(jù)集和挑戰(zhàn)賽。我預計明年會有更多的數(shù)據(jù)集和結(jié)果出現(xiàn)在語音的應(yīng)用中(比如:年齡,情緒):
http://www.robots.ox.ac.uk/~vgg/decathlon/
人類能夠處理超過十個模態(tài),為什么機器不能?
在我決定將多模態(tài)學習加入到這篇文章之前,本來想寫人工智能在金融方面的應(yīng)用,但是當我看到下面這個數(shù)據(jù)集發(fā)布之后,我就知道金融交易就再也沒有機會加入到這篇文章中了。這個 HoME 數(shù)據(jù)集包含了很令人震驚的環(huán)境, 它包含了視覺,語音,語義,物理,以及與其他物體交互等多種數(shù)據(jù)。你可以教機器人在一個幾乎真實的房間中去看,去感覺,去聽每一個東西!
https://home-platform.github.io/
我們可以將所有模態(tài)放在一起處理嗎?
你是否也好奇,我們能否構(gòu)建一個超級多模態(tài)-多任務(wù)模型,它可以根據(jù)完全不同的輸入解決完全不同的任務(wù)?Google研究院就做到了,它們構(gòu)建了一個可以將圖像和文本作為輸入的體系結(jié)構(gòu),并用單個神經(jīng)網(wǎng)絡(luò)解決圖像識別,分割,文本翻譯,解析等問題。我認為這不是解決這類任務(wù)的最聰明的辦法,但是是一個好的開始!
強化學習對我來說是最激動人心和最令人懷疑的領(lǐng)域之一:它可以在沒有任何監(jiān)督的情況下,通過自我博弈取得象棋,圍棋和撲克這樣復雜游戲的勝利,但是與此同時,強化學習幾乎沒有任何在真實世界中的應(yīng)用,比如能夠在人工環(huán)境中攀爬的3D玩具人物,或者可以移動的機械臂。這也是為什么我認為關(guān)于強化學習的研究在明年仍需要繼續(xù)。我認為會發(fā)生兩個主要的突破:OpenAI 的 Dota 2(已經(jīng) 1v 1打敗過職業(yè)選手),以及 DeepMind 的星際爭霸2。
我非常確定 DotA 和星際爭霸的冠軍未來會被 OpenAI 以及 DeepMind 的機器人擊敗?,F(xiàn)在你已經(jīng)可以使用 OpenAI 的實驗環(huán)境玩星際爭霸2了。
對于那些不喜歡玩游戲的研究者,OpenAI 也有一些有趣的結(jié)果:競爭性自我博弈,從其他模型中學習,學習交流與合作,當然,還有 Facebook 的學習談判。我希望能夠在未來的一到兩年中在聊天機器人中看到這些結(jié)果,但是目前為止,還有很多研究要做。
Facebook 談判機器人
使用神經(jīng)網(wǎng)絡(luò)很酷,你可以使用不同層數(shù)的神經(jīng)網(wǎng)絡(luò),不同密度的連接在 ImageNet 上得到 0.05 的提升,甚至可以應(yīng)用在醫(yī)療放射圖像的分析上,但是如果它們甚至不能自我解釋,我們真的可以依靠它們嗎?
我想知道,為什么這個網(wǎng)絡(luò)認為這個圖像是狗,為什么認為這個人在微笑,或者為什么說我有一些疾病。
然而,即使神經(jīng)網(wǎng)絡(luò)能夠給出非常準確的結(jié)果,但是它并不能給出上面問題的答案:
AI的解釋問題仍然被考慮為一個開放問題,盡管我們已經(jīng)有了一些成功的應(yīng)用,例如:從深度神經(jīng)網(wǎng)絡(luò)提取基于樹的規(guī)則(extraction of tree-based rules from deep networks),卷積層的可視化,以及更復雜的概念,例如隱含概念(latent conception),與或圖訓練,或者生成視覺解釋:
圖片來自 https://arxiv.org/pdf/1603.08507.pdf
以及目前最好的模型:InterpretNet:
圖片來自 https://arxiv.org/pdf/1710.09511.pdf
我們也應(yīng)該更多考慮貝葉斯方法,它能夠跟蹤預測的確定性。這一定是明年機器學習的一個熱門話題。
在 AI 解釋性之后,要解決的第二個重要任務(wù)就是現(xiàn)代機器學習算法的脆弱性,它很容易被對抗性樣本攻擊。
https://blog.openai.com/adversarial-example-research/
對于這些問題,Ian Goodfellow做出了名為 CleverHans 的原創(chuàng)性工作。以及數(shù)據(jù)的隱私和基于加密數(shù)據(jù)進行訓練的問題,可以查看來自牛津博士的精彩文章,它展示了一個簡單的同態(tài)加密神經(jīng)網(wǎng)絡(luò)的例子。
我們需要保護 AI 的輸入(隱私數(shù)據(jù)),內(nèi)部結(jié)構(gòu)(以防被攻擊),以及它所學到的東西(確保它的行動的安全性)
然而這些并不是今天人工智能的所有問題,從數(shù)學角度來看(特別是在強化學習中),算法仍然不能安全的探索環(huán)境,這意味著如果我們現(xiàn)在讓物理機器人自由地探索世界,它們在訓練過程無法完全避免錯誤或者做出不安全的行為;同時我們?nèi)匀徊荒芡耆刮覀兊哪P瓦m應(yīng)新的分布,模型的泛化能力是一個重要問題,比如基于真實世界數(shù)據(jù)集訓練的網(wǎng)絡(luò)很難識別手繪的物體;以及許多其他問題,你可以在下面的文章中查看:
https://blog.openai.com/concrete-ai-safety-problems/
DeepMind : Specifying AI Safety Problems(雷鋒網(wǎng) AI 科技評論)
我本人是最優(yōu)化理論的忠實粉絲,我認為 2017 年最優(yōu)化方法最好的綜述是由 Sebastian Ruder 撰寫的:http://ruder.io/deep-learning-optimization-2017/。
在這里,我想回顧一下改善一般的SGD+反向傳播的幾種方法:
合成梯度(synthetic gradient)和其他方法避免復雜的鏈式規(guī)則通過深度網(wǎng)絡(luò)。
用于強化學習的演化算法(Evolutionary algorithm),使用不可微的損失函數(shù),避免可能的局部最小值
改進SGD,更好的學習率和batch size規(guī)劃
學習優(yōu)化,把最優(yōu)化問題本身當作一個學習問題看待。
不同空間優(yōu)化,如果在Sobolev空間訓練我們的網(wǎng)絡(luò)會怎么樣?
圖片來自 http://bair.berkeley.edu/blog/2017/09/12/learning-to-optimize-with-rl/
我相信,通過演化算法解決不可微函數(shù)的優(yōu)化問題,強化學習,以及學習優(yōu)化技術(shù),將幫助我們更有效的訓練AI模型。
在 NIPS 上出現(xiàn)這篇演講之前,我并沒有真正意識到這個課題。當然,我知道現(xiàn)實世界的數(shù)據(jù)通常位于更高維度的空間,并且數(shù)據(jù)和信息本身擁有自己的幾何和拓撲結(jié)構(gòu)。三維物體可以被認為是點云,但實際上他是一個表面(流形manifold),一個具有自己的局部和全局數(shù)學(微分幾何)的形狀?;蛘呖紤]圖(graph),你可以用一些鄰接矩陣的形式來描述它們,但是你會丟掉一些局部結(jié)構(gòu)或者一些圖形。其他的多為對象,例如圖像,聲音,文本也可以從幾何角度考慮。我相信我們會從這個領(lǐng)域中的研究得到許多有趣的見解。
所有數(shù)據(jù)都具有我們無法避免的局部和全局幾何信息
可以在這個鏈接中找到更多的信息:
http://geometricdeeplearning.com/
除了以上討論的內(nèi)容,我們還可以談?wù)撝R表示、遷移學習、單次學習、貝葉斯學習、可微計算等等方面,但是實際上,這些領(lǐng)域還沒有做好充分的準備,并不能在 2018 年發(fā)展到一個全新的階段。在貝葉斯學習中,我們陷入了數(shù)學抽樣中;微分計算很酷,但是神經(jīng)圖靈機、DeepMind 的微分神經(jīng)計算機仍然遙遙無期;表征學習已經(jīng)是深度學習算法的核心,所以并不值得去寫;單次(one-shot)和少次(few-shot)學習同樣還沒有發(fā)展起來,也沒有很好定義的評價標準以及數(shù)據(jù)集。我希望本文中提到的各個主題能夠在逐步成熟,并在2019-2020年更多的應(yīng)用到實際世界中。
除此之外,下面是一些希望大家能夠關(guān)注的網(wǎng)站,它們能夠提供很多最新的研究進展:
OpenAI、DeepMind、IBM AI Research、Berkley AI、Stanford ML Group、Facebook Research、Google Research (為了方便國內(nèi)愛好者閱讀,雷鋒網(wǎng) AI 科技評論也會第一時間編譯其中的精彩文章)
via AI in 2018 for researchers,更多人工智能深入報道請繼續(xù)關(guān)注我們
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。