0
雷鋒網(wǎng) AI 科技評(píng)論按:五年前,Yann LeCun 等人創(chuàng)建了 Facebook 人工智能研究院 (Facebook AI Research,F(xiàn)AIR),試圖通過開放的研究環(huán)境促進(jìn)人工智能的發(fā)展,進(jìn)而造福所有人——他們努力的目的是為了理解智慧的本質(zhì),以便創(chuàng)造真正意義上的智能機(jī)器。從那時(shí)起,F(xiàn)AIR 便不斷發(fā)展壯大、做出成果,逐漸長(zhǎng)成一個(gè)在多個(gè)國(guó)家均設(shè)有實(shí)驗(yàn)室的國(guó)際性研究組織,當(dāng)中包括硅谷門羅公園、紐約、巴黎、蒙特利爾、特拉維夫、西雅圖、匹茲堡和倫敦。在人工智能漸漸成為 Facebook 業(yè)務(wù)核心的當(dāng)下,F(xiàn)AIR 也隨之成為 Facebook 龐大人工智能架構(gòu)的一部分,從基礎(chǔ)研究到應(yīng)用研究與技術(shù)開發(fā),致力于人工智能研發(fā)的方方面面。
FAIR 在對(duì)外合作上秉持著開放的態(tài)度,盡可能與社會(huì)保持緊密的聯(lián)動(dòng)關(guān)系。他們的團(tuán)隊(duì)經(jīng)常對(duì)外發(fā)布前沿的研究成果,并且盡可能對(duì)外開源研究代碼、數(shù)據(jù)集和工具(如 PyTorch 、 fastText 、 FAISS 和 Detectron)。他們的這些努力成功推進(jìn)了人工智能研究的發(fā)展。以今年為例,來自 FAIR 的研究人員成功獲得了多個(gè)獎(jiǎng)項(xiàng)的認(rèn)同,其中就包括 ACL、EMNLP、CVPR 和 ECCV 的最佳論文獎(jiǎng),以及 ECCV 、 ICML 和 NeurIPS 的時(shí)間檢驗(yàn)獎(jiǎng)。他們深信,開放的工作環(huán)境可以讓 AI 領(lǐng)域獲得快速的發(fā)展。
要想制造出真正意義上的智能機(jī)器,無論從技術(shù)還是產(chǎn)品工程的角度來說,都是一項(xiàng)挑戰(zhàn)。因此,F(xiàn)AIR 有相當(dāng)一部分的研究精力都集中于攻克一些基礎(chǔ)問題,比如推理、預(yù)測(cè)、計(jì)劃和無監(jiān)督學(xué)習(xí)等。與此同時(shí),要想在這些研究領(lǐng)域有所建樹,需要對(duì)生成模型、因果關(guān)系、高維隨機(jī)優(yōu)化和博弈論等理論有更深入的理解。如果想讓人工智能的潛力在未來最大化為我們所用,這些長(zhǎng)期的研究探索是需要一直堅(jiān)持下去的。在成立五周年之際,他們將從過去已完成的項(xiàng)目中挑選出了一些具有代表性的項(xiàng)目,通過它們向大家展示 FAIR 是如何成功達(dá)成使命,為人工智能領(lǐng)域做出貢獻(xiàn),進(jìn)而對(duì)世界產(chǎn)生影響的。
上圖時(shí)間軸展示了這 5 年以來 FAIR 較有代表性的項(xiàng)目
記憶網(wǎng)絡(luò)
在 2014 年,F(xiàn)AIR 的研究人員發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的一個(gè)本質(zhì)缺陷——長(zhǎng)期記憶。雖然大家都知道神經(jīng)網(wǎng)絡(luò)可以在數(shù)據(jù)集的訓(xùn)練過程中學(xué)習(xí),可一旦系統(tǒng)開始運(yùn)行了,它們通常再也無法存儲(chǔ)新信息,用于解決日后的特定任務(wù)。因此,他們開發(fā)出了一種新的學(xué)習(xí)模型,以幫助機(jī)器能夠記住足量的交互行為,并根據(jù)對(duì)話中先前的陳述來回答一般的知識(shí)問題。他們一篇發(fā)表于 2014 年闡述了該模型的論文(https://arxiv.org/abs/1410.3916)中,試圖通過一個(gè)具備記憶能力的網(wǎng)絡(luò)去回答和《指環(huán)王》系列故事情節(jié)相關(guān)的問題,而它的依據(jù)僅僅只有提供的一篇簡(jiǎn)短摘要。結(jié)果顯示,該系統(tǒng)不但能夠?qū)W習(xí)到一些簡(jiǎn)單的語言模式,甚至還能正確歸納出生詞的意思,例如在故事結(jié)尾中出現(xiàn)的「佛羅多身在夏爾」以及「魔戒在末日山上」。
FAIR 在接下來的兩年內(nèi)繼續(xù)對(duì)這一方法進(jìn)行改進(jìn),無論在研究范圍還是探索領(lǐng)域上都擴(kuò)充了許多。他們開發(fā)出一款可以從序列中以無監(jiān)督的方式進(jìn)行訓(xùn)練的增強(qiáng)式 RNN,它帶有一個(gè)支持 push、pop 的堆棧,也就是 StackRNN(https://research.fb.com/downloads/stack-rnn/)。在 bAbl 中(https://research.fb.com/downloads/babi/),團(tuán)隊(duì)構(gòu)建了基于問答任務(wù)的數(shù)據(jù)集,以評(píng)測(cè)機(jī)器在文本理解方面的表現(xiàn)。值得一提的是,bAbI 如今已是開源項(xiàng)目 ParlAI 的一部分,該項(xiàng)目包含了上千條的對(duì)話示例,涵蓋從餐館預(yù)訂到對(duì)電影陣容的回答,可以說是應(yīng)有盡有。此外,他們還對(duì)內(nèi)存網(wǎng)絡(luò)架構(gòu)進(jìn)行了迭代,增強(qiáng)它們?cè)趯?shí)際應(yīng)用程序中的實(shí)用性。迭代的內(nèi)容包括了端到端內(nèi)存網(wǎng)絡(luò)(https://arxiv.org/abs/1503.08895)以及鍵值內(nèi)存網(wǎng)絡(luò)(https://arxiv.org/abs/1606.03126),前者可以讓網(wǎng)絡(luò)在更少的監(jiān)督下工作,后者則允許網(wǎng)絡(luò)通過完全沒有監(jiān)督的信息源 (如維基百科條目) 進(jìn)行泛化后進(jìn)行訓(xùn)練。
自我監(jiān)督學(xué)習(xí)與生成模型
如何通過自監(jiān)督學(xué)習(xí) (SSL) 對(duì)大量未標(biāo)記的數(shù)據(jù)進(jìn)行利用,進(jìn)而擴(kuò)大人工智能的運(yùn)用規(guī)模,向來是 FAIR 優(yōu)先級(jí)最高的工作之一。有了 SSL,機(jī)器可以通過輸入未標(biāo)記的圖像、視頻或音頻來習(xí)得世界的抽象表征。SSL 最典型的一個(gè)應(yīng)用例子是,通過向一臺(tái)機(jī)器展示視頻內(nèi)容并進(jìn)行訓(xùn)練,使其可以預(yù)測(cè)接下來出現(xiàn)的畫面。一旦掌握了預(yù)測(cè)的能力,機(jī)器可以獲取關(guān)于世界如何運(yùn)轉(zhuǎn)的知識(shí),進(jìn)而更好習(xí)得對(duì)世界的抽象表征。SSL 讓機(jī)器可以像人類與動(dòng)物的嬰兒一樣通過觀察來進(jìn)行學(xué)習(xí),由此積累大量關(guān)于真實(shí)世界的背景知識(shí)。人們都希望機(jī)器可以和這個(gè)世界達(dá)成一種「共識(shí)」。一個(gè)具備對(duì)世界萬物進(jìn)行預(yù)測(cè)能力的模型,是構(gòu)建能夠進(jìn)行推理、預(yù)測(cè)其行為后果并在現(xiàn)實(shí)世界中付諸行動(dòng)的人工智能系統(tǒng)的關(guān)鍵。
2014 年,來自蒙特利爾大學(xué) MILA 的一名朋友(Ian Goodfellow)提出了名為生成對(duì)抗網(wǎng)絡(luò) (GANs) 的新型無監(jiān)督學(xué)習(xí)方法。當(dāng)時(shí) FAIR 的研究人員們立刻被這種自我監(jiān)督學(xué)習(xí)方法的潛在應(yīng)用價(jià)值所吸引。不過,盡管 GANs 讓人感覺這種方法很有前途,該方法卻只在一些非常簡(jiǎn)單的問題上得到了證明。為此,F(xiàn)AIR 從 2015 年開始發(fā)表了一系列論文,試圖說服學(xué)界人士關(guān)于 GANs 確實(shí)發(fā)揮了作用。簡(jiǎn)單來說,GANs 可以用來訓(xùn)練機(jī)器在不確定的情況下進(jìn)行預(yù)測(cè),其背后依賴的是兩個(gè)相互對(duì)抗的神經(jīng)網(wǎng)絡(luò)。在典型的 GAN 結(jié)構(gòu)中,生成器網(wǎng)絡(luò)會(huì)從一堆隨機(jī)數(shù) (可能還包含過去的視頻幀) 生成數(shù)據(jù)(如圖像或視頻幀),與此同時(shí),鑒別器網(wǎng)絡(luò)也會(huì)同步區(qū)分真實(shí)數(shù)據(jù)(真實(shí)的圖像與視頻幀)與生成器的「失誤」輸出。正是這種對(duì)抗性的網(wǎng)絡(luò)運(yùn)行邏輯有效優(yōu)化了兩個(gè)網(wǎng)絡(luò),從而帶來更好的預(yù)測(cè)效果。
這些年,他們的論文基本覆蓋了 GANs 的幾種關(guān)鍵變體,其中包括專注于圖像生成的深度卷積生成對(duì)抗網(wǎng)絡(luò) (DCGANs,http://arxiv.org/abs/1511.06434) 和拉普拉斯對(duì)抗網(wǎng)絡(luò) (LAPGANs,http://papers.nips.cc/paper/5773-deep-generative-image-models-using-a-laplacian-pyramid-of-adversarial-networks),以及專注于視頻預(yù)測(cè)行為的對(duì)抗梯度差損失預(yù)測(cè)器 (AGDLs,https://arxiv.org/abs/1511.05440)。這些論文的最重要貢獻(xiàn)是,向大家證明了 GANs 實(shí)際上可以「創(chuàng)造」出一些看起來很逼真的圖像,例如壓根就不存在的臥室、面孔或者狗。
圖中展示了一系列由生成網(wǎng)絡(luò)創(chuàng)建的時(shí)裝設(shè)計(jì)作品
從此以后,有越來越多的研究人員開始關(guān)注 FAIR 在 GANs 方面所做的工作,利用它們創(chuàng)建令人贊嘆的高分辨率圖像。然而 GANs 是出了名的難以調(diào)優(yōu)以及難以收斂,為此 FAIR 努力探索更多可以讓 GANs 變得可靠的方法,其中一種方法是在理論上著重于理解對(duì)抗性的訓(xùn)練。2017 年,他們提出了 Wasserstein GAN (WGAN,https://arxiv.org/abs/1701.07875) 方法,該方法通過改進(jìn)鑒別器使其變得更加「平滑」和高效,由此增強(qiáng)生成器的預(yù)測(cè)效果??偟膩碚f,WGAN 是第一個(gè)能夠保證收斂魯棒性,且被廣泛應(yīng)用的 GAN。這也意味著有了 WGAN 后,可以在優(yōu)化系統(tǒng)時(shí)免去平衡鑒別器和生成器輸出的工作,從而顯著提高網(wǎng)絡(luò)在學(xué)習(xí)上的穩(wěn)定性,尤其是在高分辨率圖像的生成任務(wù)中。
自此,F(xiàn)AIR 的研究員們和 Facebook 工程師們將對(duì)抗訓(xùn)練這一方法進(jìn)行了大范圍應(yīng)用,包括長(zhǎng)時(shí)間視頻預(yù)測(cè)(http://openaccess.thecvf.com/content_ICCV_2017/papers/Luc_Predicting_Deeper_Into_ICCV_2017_paper.pdf)和時(shí)尚服裝創(chuàng)造(https://arxiv.org/abs/1804.00921)。但是生成式對(duì)抗網(wǎng)絡(luò)(GAN)真正有趣的部分,是它們對(duì)于未來的意義。作為一項(xiàng)全新的技術(shù)(幾年前甚至還不存在),它為我們帶來了在數(shù)據(jù)稀缺的領(lǐng)域生成數(shù)據(jù)的新機(jī)會(huì)。未來的探索中,它可能成為構(gòu)建能夠自主學(xué)習(xí)的機(jī)器的關(guān)鍵工具。
規(guī)?;奈谋痉诸?/span>
文本理解不是單一任務(wù),而是一個(gè)擴(kuò)展的子任務(wù)矩陣,是把詞語、短語和整個(gè)語言數(shù)據(jù)集組織為機(jī)器能夠處理的格式。但是在大量工作進(jìn)行之前,文本本身需要被分類。幾年前,詞向量(word2vec)等自然語言處理模型通過大量的、基于詞的訓(xùn)練來對(duì)文本進(jìn)行分類,同時(shí),模型為訓(xùn)練數(shù)據(jù)集中的每個(gè)單詞分配不同向量。對(duì)于 Facebook 來說,這種文本分類方法太慢,并且太依賴于完全監(jiān)督的數(shù)據(jù)。他們需要最終實(shí)現(xiàn)的是對(duì)成百上千種語言進(jìn)行文本分類,其中許多語言并不具備大規(guī)模數(shù)據(jù)集。該系統(tǒng)需要擴(kuò)展到 Facebook 所有基于文本的功能和服務(wù)中,還需要兼顧 FAIR 的自然語言處理研究。
因此在 2016 年,F(xiàn)AIR 創(chuàng)建了 fastText(https://code.fb.com/ml-applications/expanded-fasttext-library-now-fits-on-smaller-memory-devices/),這是一個(gè)用于快速分類文本和學(xué)習(xí)詞表示的框架,它考慮了其所分類詞語的更大形態(tài)。在 2017 年發(fā)表的一篇論文(https://arxiv.org/pdf/1607.04606.pdf)中,F(xiàn)AIR 提出了一個(gè)模型,該模型將向量分配給「子詞單元」(例如,3 或 4 個(gè)字母組成的序列),而不是分配給整個(gè)單詞,從而讓系統(tǒng)為訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的單詞創(chuàng)建表示,最終的結(jié)果,該模型的分類可以擴(kuò)展到數(shù)十億個(gè)詞語,并從新的、未經(jīng)訓(xùn)練的詞語中學(xué)習(xí),同時(shí)其訓(xùn)練速度也比典型的深層學(xué)習(xí)分類器快得多。在某些情況下,用 fastText 可以在幾秒內(nèi)訓(xùn)練完此前需要花費(fèi)幾天時(shí)間才能完成訓(xùn)練的模型。
后來的發(fā)展表明 FastText 對(duì)于基于人工智能的語言理解的研究和應(yīng)用是一項(xiàng)重要貢獻(xiàn),并且它現(xiàn)在適用于 157 種語言。原論文在其他出版物上已被引用了上千次,而 fastText 仍然是詞嵌入系統(tǒng)最常用的基線之一。在 Facebook 以外,fastText 也已在各種各樣的應(yīng)用程序中得到應(yīng)用,從熟悉的應(yīng)用場(chǎng)景,如消息回復(fù)推薦(suggesting message replies),到特別的應(yīng)用場(chǎng)景,如一款叫做 The Great Outdoors 的「算法劇場(chǎng)」產(chǎn)品,它使用 fastText 來幫助篩選大眾互聯(lián)網(wǎng)評(píng)論并將篩選結(jié)果安排為表演的腳本。該框架也被部署在 Facebook 上,用于對(duì) 19 種語言的文本進(jìn)行分類,并與 DeepText 結(jié)合用于翻譯和自然語言理解。
前沿的翻譯研究
快速、準(zhǔn)確、靈活的翻譯是幫助世界各地的人們進(jìn)行交流的重要組成部分。因此,在 FAIR 成立的早期,他們就開始尋找一種比當(dāng)時(shí)最先進(jìn)的統(tǒng)計(jì)機(jī)器翻譯表現(xiàn)更好的新方法。他們花了三年的時(shí)間構(gòu)建了一個(gè)基于 CNN 的,集速度、準(zhǔn)確性和學(xué)習(xí)能力為一體的神經(jīng)機(jī)器翻譯(NMT)架構(gòu)。(Facebook 人工智能研究院在 2017 年發(fā)表了一篇詳述其工作的論文 https://arxiv.org/abs/1705.03122。)在他們的實(shí)驗(yàn)中,這種方法相比 RNN 的速度提高了 9 倍,同時(shí)還保持了當(dāng)時(shí)最高的準(zhǔn)確率。
他們的多跳 CNN 不僅更易于在更有限的數(shù)據(jù)集上訓(xùn)練,也能更好地理解拼寫錯(cuò)誤或縮寫詞,比如正確地把「tmrw」作為「tomorrow」進(jìn)行翻譯。總體而言,神經(jīng)機(jī)器翻譯提高了平均 11 % 的準(zhǔn)確率以及 2.5 倍的翻譯速度。除了改進(jìn)自己的系統(tǒng),他們還對(duì) fairseq 的代碼和模型(https://github.com/facebookresearch/fairseq)進(jìn)行了開源,它是針對(duì)基于 CNN 系統(tǒng)使用的序列到序列的建模工具包。
為了避免對(duì)大規(guī)模翻譯訓(xùn)練數(shù)據(jù)集的需求(通常稱為語料庫(kù)),他們還在尋求其他新的機(jī)器翻譯方法,例如多語言嵌入,其可以實(shí)現(xiàn)跨多種語言的訓(xùn)練。去年,他們發(fā)布了一個(gè)開源 Python 庫(kù)——MUSE,它為學(xué)習(xí)多語言嵌入提供了兩種不同方法:一種是使用發(fā)布版本中包含的 110 種雙語詞典的有監(jiān)督的方法;另一種是允許在沒有平行語料兩種語言間構(gòu)建新雙語詞典的更新的、無監(jiān)督的方法。隨后,他們發(fā)表了一篇 EMNLP 獲獎(jiǎng)?wù)撐模?a target="_blank" rel=nofollow>https://arxiv.org/abs/1804.07755),展示了針對(duì)完整句子翻譯的無監(jiān)督訓(xùn)練所取得的顯著進(jìn)步。
通過共享 fairseq 和 MUSE 這樣的研究和資源,F(xiàn)AIR 鼓勵(lì)其他人無論是用于研究目的還是生產(chǎn)應(yīng)用,都能享受更快、更準(zhǔn)確和更多功能的翻譯技術(shù)所帶來的好處。
讓每個(gè)人都進(jìn)步的人工智能工具
人工智能的進(jìn)步不僅取決于突破性的想法,還取決于擁有強(qiáng)大的平臺(tái)和工具來驗(yàn)證和實(shí)現(xiàn)它們。FAIR 率先建立起了這些系統(tǒng),并與世界分享。在 2015 年,他們開源由 FAIR 開發(fā)的 Torch 深度學(xué)習(xí)模塊(https://code.fb.com/developer-tools/fair-open-sources-deep-learning-modules-for-torch/),以加速大型神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。在 2016 年,他們發(fā)布了 Torchnet(https://code.fb.com/core-data/lighting-the-way-to-deep-machine-learning/),使得深度學(xué)習(xí)社區(qū)能夠更容易地快速構(gòu)建有效和可重復(fù)使用的學(xué)習(xí)系統(tǒng)。不久之后,他們發(fā)布了 Caffe2(https://caffe2.ai),它是用于移動(dòng)計(jì)算的模塊化深層學(xué)習(xí)框架,如今正在全球 10 億多部手機(jī)上運(yùn)行神經(jīng)網(wǎng)絡(luò)。接著,他們又聯(lián)合微軟和亞馬遜發(fā)布了 ONNX(https://onnx.ai),這是針對(duì)神經(jīng)網(wǎng)絡(luò)的一種通用表示,可以使其更易于根據(jù)需要在框架之間移動(dòng)。
特別是,他們對(duì) PyTorch(https://pytorch.org)的研究工作表明了 FAIR 致力于開發(fā)快速迭代、具有巨大影響力、開放的系統(tǒng)以及與 AI 社區(qū)建立合作。PyTorch 最初只是 Facebook 人工智能研究院一小部分研究人員的小成果。他們選擇在 Torch 開放源代碼庫(kù)上構(gòu)建一個(gè)深度學(xué)習(xí)框架,而不是全部重新構(gòu)建,同時(shí)他們還集成了英特爾和英偉達(dá)的加速庫(kù),來實(shí)現(xiàn)速度最大化。他們?cè)?2017 年初發(fā)布了 PyTorch,在不到兩年時(shí)間的今天,它成為了 GitHub 上發(fā)展速度排第二的開源項(xiàng)目(https://octoverse.github.com/projects),以及全球 AI 開發(fā)人員所選用的框架。在 10 月份,AI 社區(qū)的數(shù)百名成員參加了第一屆 PyTorch 開發(fā)者大會(huì),聆聽了來自加州理工大學(xué)、FAIR 、fast.ai、谷歌、微軟、英偉達(dá)、特斯拉以及其他許多企業(yè)和機(jī)構(gòu)的發(fā)言?,F(xiàn)在,PyTorch 1.0 的發(fā)布集成了 Caffe2 和 ONNX 的模塊化、面向生產(chǎn)的能力,并通過深度集成云服務(wù)和技術(shù)供應(yīng)商,提供了從原型研究到產(chǎn)品部署的無縫對(duì)接路徑。
PyTorch 被集成到 Facebook 擁有億級(jí)用戶的產(chǎn)品中,它也被集成到了 FAIR 自己的研究項(xiàng)目上,如 fairseq(-py)(https://github.com/pytorch/fairseq),這個(gè)版本比之前版本的翻譯速度提高了 80%。強(qiáng)化學(xué)習(xí)圍棋機(jī)器人 ELF OpenGo、嵌入問答 EmbodiedQA 的研究(https://embodiedqa.org/)以及在數(shù)十億帶有標(biāo)簽的公共圖像上訓(xùn)練圖像識(shí)別網(wǎng)絡(luò)的時(shí)候,都使用了 PyTorch。除了 Facebook,紐約大學(xué)教授 Narges Razavian 博士在 AllenNLP 項(xiàng)目和利用人工智能改善早期疾病檢測(cè)的項(xiàng)目中也使用了 PyTorch?,F(xiàn)在 Udacity 和 FAST.AI 正在幫助更多的人使用 PyTorch。
由于 PyTorch 使得模型從研究到生產(chǎn)更快、更容易,F(xiàn)AIR 在 Facebook AI 相似性搜索(FAISS)方面的工作也加速了大規(guī)模搜索研究方面的進(jìn)展。FAISS 最初只是一個(gè)利用 GPU 來識(shí)別與用戶偏好相關(guān)的相似性的內(nèi)部研究項(xiàng)目,但如今它能夠利用數(shù)十億規(guī)模的數(shù)據(jù)集,是現(xiàn)有的同類查詢庫(kù)中最快最大的一個(gè)。FAISS 已經(jīng)為推薦引擎和人工智能輔助系統(tǒng)開辟了可能性。FAIR 去年把它作為開源庫(kù)發(fā)布,現(xiàn)在 FAISS 已經(jīng)被開發(fā)者社區(qū)廣泛采用,獲得了 5000 多個(gè) GitHub star 并被集成到了 NVIDIA 的 GPU 加速的 scikit-learning 庫(kù) cuML 中。
一種新的計(jì)算機(jī)視覺測(cè)試基準(zhǔn)
試圖理解智力的本質(zhì)是一項(xiàng)多感官式的研究,但在過去五年,F(xiàn)AIR 實(shí)際上只在計(jì)算機(jī)視覺方面進(jìn)展較多。在 FAIR 誕生之前,F(xiàn)acebook 就有一支由人工智能專家組成的小團(tuán)隊(duì),他們?cè)噲D更好地理解圖像中的人是如何被像素表示的,以便在正確的時(shí)間為人們展示正確的照片。到 2017 年,F(xiàn)AIR 的研究人員將最優(yōu)秀的目標(biāo)檢測(cè)和語義分割技術(shù)相結(jié)合,完成了 Mask R-CNN 論文,這篇論文也獲得了 CVPR2017 的最佳論文獎(jiǎng)。
正如這篇論文所說,「在不加修飾的情況下,Mask R-CNN 在每一項(xiàng)任務(wù)上的表現(xiàn)都勝過所有現(xiàn)有的單模項(xiàng)目,包括 COCO 2016 挑戰(zhàn)賽冠軍?!惯@項(xiàng)工作迅速在更多的人工智能社區(qū)成為了計(jì)算機(jī)視覺研究的基礎(chǔ)。然后,該技術(shù)被集成到 FAIR 的開源 Detectron 系統(tǒng)中,為世界各地的研究人員提高了算法的直觀易用性、速度和準(zhǔn)確性。
這項(xiàng)基礎(chǔ)工作支撐著 Facebook 的大量現(xiàn)有系統(tǒng),例如替代自動(dòng)文本可以幫助視力受損者檢測(cè)文本和不良內(nèi)容。這也是未來應(yīng)用的基礎(chǔ):跨平臺(tái)的 AR 功能和 Portal 中的 Smart Camera 都植根于此。隨著研究的繼續(xù)進(jìn)行,F(xiàn)AIR 的研究重點(diǎn)轉(zhuǎn)移到了視頻,DensePose 項(xiàng)目就可以幫助系統(tǒng)理解視頻內(nèi)容以及照片。
上面的視頻演示了當(dāng)人移動(dòng)時(shí),在人的頭頂上創(chuàng)建 3D 表面。
圖像理解:更快的訓(xùn)練和更大的數(shù)據(jù)集
計(jì)算機(jī)視覺并不是 FAIR 尋求解決大規(guī)模挑戰(zhàn)的唯一領(lǐng)域。FAIR 與 Facebook 的應(yīng)用機(jī)器學(xué)習(xí)(AML)團(tuán)隊(duì)合作,解決訓(xùn)練速度和訓(xùn)練集大小的限制,以及缺乏監(jiān)督數(shù)據(jù)集的問題。在今年早些時(shí)候發(fā)表的一篇論文中,AML 的團(tuán)隊(duì)討論了他們?nèi)绾卧趲в泄1淼拇笮凸矆D像集上訓(xùn)練圖像識(shí)別網(wǎng)絡(luò),其中最大的包括 35 億張圖像和 17000 個(gè)哈希表。它的數(shù)量級(jí)比以往任何發(fā)表的作品都要多,并且結(jié)果是迄今為止業(yè)界發(fā)布的最好的結(jié)果:準(zhǔn)確率為 85.4%。
通過 FAIR 對(duì)訓(xùn)練速度的研究,這一突破成為可能——FAIR 能夠?qū)?ImageNet 的訓(xùn)練速度提高一個(gè)數(shù)量級(jí)。他們把訓(xùn)練時(shí)間縮短到一個(gè)小時(shí)以下,演示了如何進(jìn)行小規(guī)模的 SGD 訓(xùn)練,這些訓(xùn)練的數(shù)量級(jí)比之前認(rèn)為的實(shí)際數(shù)量級(jí)大。用他們的話說:「為了得到這個(gè)結(jié)果,我們采用線性縮放規(guī)則將學(xué)習(xí)率調(diào)整為一個(gè)小批量的函數(shù),并且開發(fā)新的預(yù)處理方案,這個(gè)方案解決了早期訓(xùn)練中的最優(yōu)化問題。」
隨著訓(xùn)練速度的提高,我們能夠?qū)^大數(shù)據(jù)集上的弱監(jiān)督學(xué)習(xí)進(jìn)行有針對(duì)性的研究。這兩個(gè)結(jié)果表明,F(xiàn)AIR 和 AML 之間是互相促進(jìn)的。當(dāng)解決人工智能的科學(xué)得到實(shí)際研究和生產(chǎn)中應(yīng)用的支持時(shí),我們會(huì)看到最快速、最先進(jìn)的結(jié)果。
FAIR 的未來
當(dāng) LeCun 等人創(chuàng)建 FAIR 時(shí),他們的最終目標(biāo)是理解智能并發(fā)現(xiàn)其基本原理,從而提高機(jī)器的智能性。到現(xiàn)在這一目標(biāo)也沒有改變?,F(xiàn)在 FAIR 的研究人員們正在繼續(xù)擴(kuò)展他們的研究領(lǐng)域,諸如開發(fā)能夠通過自我監(jiān)督學(xué)習(xí)獲得真實(shí)世界模型的機(jī)器,訓(xùn)練機(jī)器進(jìn)行推理,以及訓(xùn)練它們進(jìn)行規(guī)劃和構(gòu)思復(fù)雜的行動(dòng)等。這也是 FAIR 目前研究機(jī)器人、視覺推理和對(duì)話系統(tǒng)的原因之一。在這篇文章中他們已經(jīng)描述了一些已有的具體成果,這些項(xiàng)目證明了他們?nèi)〉昧司薮蟮倪M(jìn)步,但在讓機(jī)器更加智能從而幫助人們的過上更好生活這個(gè)方面還有很長(zhǎng)的路要走。
雷鋒網(wǎng) AI 科技評(píng)論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。