Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

本文作者：夏睿

2017-02-23 09:15

導(dǎo)語(yǔ)：AML實(shí)驗(yàn)室負(fù)責(zé)人Joaquin Candela在@Scale大會(huì)上發(fā)表了演講，他講述了Facebook在落地應(yīng)用AI技術(shù)的方方面面。

雷鋒網(wǎng)按：本文為AML實(shí)驗(yàn)室負(fù)責(zé)人Joaquin Candela在@Scale大會(huì)上發(fā)表了的關(guān)于如何將AI技術(shù)應(yīng)用于Facebook各個(gè)領(lǐng)域的下半部分演講內(nèi)容。此篇中，Joaquin Candela和大家講解了AI技術(shù)在視頻理解平臺(tái)、文本理解、語(yǔ)音識(shí)別、視頻風(fēng)格變換多個(gè)領(lǐng)域的應(yīng)用，并配以實(shí)際案例幫助大家理解。上篇內(nèi)容及演講視頻請(qǐng)看雷鋒網(wǎng)報(bào)道《Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（上）》。以下為雷鋒網(wǎng)編譯。

圖像視頻理解：Lumos平臺(tái)

Lumos的故事很有意思，它最初誕生于FAIR實(shí)驗(yàn)室，最初只是一個(gè)實(shí)驗(yàn)性的項(xiàng)目，當(dāng)時(shí)有人提出，我們要不建一個(gè)可以理解所有Facebook上面圖片的系統(tǒng)？這個(gè)項(xiàng)目開(kāi)始的時(shí)候，看起來(lái)似乎不可能完成。后來(lái)這個(gè)項(xiàng)目的成員轉(zhuǎn)來(lái)了AML，成了如今CV團(tuán)隊(duì)里的種子成員，接著我們跟FAIR實(shí)驗(yàn)室一起合作開(kāi)發(fā)了新的Lumos平臺(tái)。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

在應(yīng)用方面，Lumos如今每天都要對(duì)Facebook上的每張圖片進(jìn)行分析，處理的數(shù)量高達(dá)數(shù)十億。要處理很多任務(wù)，比如：

為盲人描述圖片
重現(xiàn)重要回憶
提供更好地圖片和視頻搜索結(jié)果
保護(hù)人們不受有害內(nèi)容的侵?jǐn)_

一件很酷的事情就是，我們有一個(gè)共享的訓(xùn)練庫(kù)，Lumos上已經(jīng)有超過(guò)一億訓(xùn)練樣本，并且這一數(shù)據(jù)還在增長(zhǎng)。

去年，我們升級(jí)了Lumos的核心模型，不出意料，是的，更新成為了一個(gè)Deep Residual Network（Deep ResNet）。當(dāng)我們啟動(dòng)新模型時(shí)，那感覺(jué)就像是，潮水升起，帶著船只也升高。也就是說(shuō)，F(xiàn)acebook公司內(nèi)所有依賴Lumos的模型，一下子準(zhǔn)確度都提高了。但是，有一個(gè)問(wèn)題，從無(wú)到有訓(xùn)練這些模型，然后轉(zhuǎn)移到新的架構(gòu)里，是需要重新訓(xùn)練的，而這會(huì)花費(fèi)很長(zhǎng)時(shí)間。還有就是，有很多的任務(wù)需要這樣的模型，如果我們用專用的ResNet為每一個(gè)應(yīng)用工作，當(dāng)你整個(gè)公司有數(shù)百個(gè)應(yīng)用的時(shí)候，你很快就會(huì)無(wú)法忍耐計(jì)算量和數(shù)據(jù)集的局限。

現(xiàn)在這兩個(gè)問(wèn)題，我們都一次解決了。我們解決問(wèn)題的方式，比較像是一個(gè)多層蛋糕。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

現(xiàn)在，你有一個(gè)大型主模型（master model），這個(gè)模型是用你所有的數(shù)據(jù)來(lái)訓(xùn)練的，并且解決了數(shù)千個(gè)不同的預(yù)測(cè)任務(wù)。這個(gè)模型定期更新，隨著你處理越來(lái)越多的任務(wù)，那么之后，當(dāng)你處理一個(gè)新任務(wù)時(shí)，并不需要從頭開(kāi)始做。ResNet已經(jīng)學(xué)習(xí)的特征是非常有用的，所以你的出發(fā)點(diǎn)可以換到更高一層，而不是從原始的像素開(kāi)始。

但是，這當(dāng)中有一個(gè)需要尋找“平衡點(diǎn)”（trade off）的過(guò)程，如果你在靠近輸出層（output layer）的地方開(kāi)始，那么就不需要重復(fù)訓(xùn)練每一層的模型，這樣的結(jié)果是，你很快就可以得到的一個(gè)新任務(wù)模型，但是就會(huì)犧牲一些準(zhǔn)確性。相反的，如果你不采用這種方法，而是在靠近輸入層（input layer）的地方開(kāi)始，輸入層特征更加通用，但是你要接下來(lái)訓(xùn)練很多層模型，這會(huì)花費(fèi)你很多的精力。

所以要知道最好的“平衡點(diǎn)”是什么。所以，我來(lái)跟大家展示，一個(gè)新的任務(wù)團(tuán)隊(duì)來(lái)使用Lumos的時(shí)候，會(huì)是一個(gè)怎樣的體驗(yàn)，記住，“易用性”是里面最關(guān)鍵的地方。

比如，我們要建立一個(gè)全新的模型，來(lái)分辨出“人騎馬”的圖片。那么最一開(kāi)始，我們需要什么呢，當(dāng)然是訓(xùn)練數(shù)據(jù)。然后用一些關(guān)鍵詞，比如“人”、“馬”等，從Facebook和Instagram的公開(kāi)照片里，檢索出關(guān)鍵詞的圖片。

當(dāng)我們得到這些圖片時(shí)，一個(gè)很酷的事情就是Lumos平臺(tái)會(huì)做一些類別排序，你能夠快速檢索到特定類別的圖片，你可以為你所有的數(shù)據(jù)打上符合或不符合的標(biāo)簽，制作成訓(xùn)練集。然后你可以做一個(gè)我們稱為“現(xiàn)場(chǎng)預(yù)覽”（live preview），來(lái)看看它的運(yùn)行狀況如何，糾正一些錯(cuò)誤。你所訓(xùn)練過(guò)的模型，F(xiàn)acebook的其他工程師在FBLearner Flow也可以重復(fù)利用。隨著其他人對(duì)它的訓(xùn)練越來(lái)越多，這個(gè)模型也會(huì)變得越來(lái)越精確。

下面我跟大家展示另一個(gè)訓(xùn)練模型例子，你可以看到它被訓(xùn)練的效果很好。只要有了生產(chǎn)數(shù)據(jù)，這個(gè)模型就能在你的產(chǎn)品上運(yùn)行起來(lái)。這意味著什么呢？這意味著只需要幾分鐘，我們就獲得了一個(gè)新的模型，這個(gè)模型就有能力識(shí)別Facebook上發(fā)布的所有新照片。而我們每個(gè)人都可以在Facebook上用這個(gè)模型。就這么簡(jiǎn)單。

看它的一個(gè)成果，這是我女兒，她正在騎馬。有趣的是，你可以在分類上看到“people riding on horse”，這說(shuō)明Lumos起作用了。它識(shí)別出了horse，animal和people riding on horse。除此之外，它還有ranch（大牧場(chǎng)）標(biāo)簽，這說(shuō)明之前有人讓模型學(xué)習(xí)過(guò)“ranch”這個(gè)標(biāo)簽對(duì)應(yīng)的是什么圖形，同樣道理，下面還有outdoor，nature和has person。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

現(xiàn)在我知道它已經(jīng)學(xué)會(huì)識(shí)別某些圖片了，但這還不夠。我還想知道它哪里有缺陷。

然后我就想，這里有沒(méi)有“sitting on chair”的模型。接下來(lái)我看到了Lumos呈現(xiàn)出來(lái)的這張人坐在椅子上的圖片。在這張圖片的分類里有people sitting，face， table，indoor，restaurant indoor等幾個(gè)標(biāo)簽，這都很好。但并沒(méi)有chair這個(gè)標(biāo)簽，這很不可思議。不過(guò)不用擔(dān)心，我已經(jīng)知道怎么修補(bǔ)這個(gè)缺陷了。只需要訓(xùn)練這個(gè)模型幾分鐘，它就學(xué)會(huì)要在有chair的圖片里加上“chair”這個(gè)標(biāo)簽了。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

下面我給大家展示兩個(gè)其他研發(fā)團(tuán)隊(duì)是如何應(yīng)用Lumos平臺(tái)的。

圖片搜索。

現(xiàn)在，純粹的以圖搜圖技術(shù)已經(jīng)投入應(yīng)用了。大家中場(chǎng)休息的時(shí)候可以用自己的手機(jī)試一下，點(diǎn)擊搜索引擎上的photo指令，用圖片搜索圖片。

我記得有一次我過(guò)生日的時(shí)候，我們沒(méi)點(diǎn)生日蛋糕，而是由我自己親手做了派拉（Paila，一種拉美菜）。我把和派拉的合照發(fā)布在了網(wǎng)上，但是上面并沒(méi)有出現(xiàn)任何關(guān)于這道菜的描述，但是當(dāng)我再次搜索派拉圖片的時(shí)候，我看到了下面結(jié)果：

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

看，我的照片在搜索結(jié)果中，Lumos再次成功運(yùn)行。這個(gè)過(guò)程很簡(jiǎn)單并且效果還可以，不過(guò)我們要求的是精益求精。

所以圖片搜索的原理是什么呢？簡(jiǎn)單來(lái)說(shuō)，搜索圖片原理的關(guān)鍵之處就在于“概念”，即你搜索的內(nèi)容和圖片顯示內(nèi)容之間有共同的概念。搜索圖片就是讓Lumos對(duì)圖片的預(yù)測(cè)和對(duì)搜索內(nèi)容的預(yù)測(cè)匹配起來(lái)。

下面這張圖片，看起來(lái)像是中央公園（central park）。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

從圖片中可以提取出的概念有sky，cloud，city，park，grass，foliage和skyscraper等。

而在查詢（query）部分，我們用理解引擎把實(shí)體central park和要查詢文本“central park”聯(lián)系起來(lái)。因此，查詢機(jī)制從“central park”中提取出來(lái)的概念有l(wèi)ocation，park，place，attraction等等。現(xiàn)在，你有了兩組概念，接下來(lái)的事情就是尋找其中的關(guān)聯(lián)度。而你所做的，就是輸入查詢“central park”，最后得的到底是不是你想要的圖片，它們的概念匹配到底對(duì)不對(duì)。是的，它再一次成功運(yùn)行了。

而接下來(lái)，我們?yōu)槭裁床荒苡眠@種方法做更多事呢？

我們希望用這種方法解決更多問(wèn)題，因?yàn)樗泻軓?qiáng)的交互性（interactive）。我們上面說(shuō)的認(rèn)為挑選出來(lái)以訓(xùn)練分類器的概念，其實(shí)事實(shí)上照片不知道它對(duì)應(yīng)的是哪一部分。所以更好的辦法就是直接把圖像和查詢內(nèi)容共同嵌入在共同潛在空間（common latent spaces）中，用減少排序損失（ranking loss）的方法進(jìn)一步提高圖片搜索的精確度。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

你的團(tuán)隊(duì)可以用這種方法訓(xùn)練分類器，看它的匹配性能強(qiáng)不強(qiáng)。在這個(gè)圖中你看到query出現(xiàn)了兩次，這表示這個(gè)研究團(tuán)隊(duì)在選擇更合適的排序損失。他們會(huì)給同一個(gè)查詢內(nèi)容，然后看哪個(gè)帶有標(biāo)簽的知識(shí)更匹配你要查的內(nèi)容，以確保你的嵌入的排序損失達(dá)到最小化。而結(jié)果表明，用這種方法進(jìn)行圖片搜索，匹配度的確高了很多。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

自動(dòng)轉(zhuǎn)換文本

去年4月，我們公司上線了自動(dòng)轉(zhuǎn)換文本（automatic alternative text，AAT）技術(shù)。用該技術(shù)，Facebook可以通過(guò)圖像識(shí)別認(rèn)出用戶發(fā)布的圖片中包含的信息并讀出來(lái)，幫助盲人“看到”網(wǎng)站上的圖片。我們周圍的盲人有好幾億，所以解決幫盲人閱讀網(wǎng)絡(luò)上的圖片這個(gè)問(wèn)題迫在眉睫。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

Facebook從這三張圖中看到得分別是：左圖——披薩、食物，中圖——樹(shù)、天空、戶外、右圖——兩個(gè)人、微笑、太陽(yáng)鏡、戶外、水。

而右圖除了有實(shí)物“兩個(gè)人”，還包含有人的動(dòng)作“微笑”。我們發(fā)現(xiàn)Facebook可以讀出這里面有人，可以讀出來(lái)人在做什么。而對(duì)該技術(shù)的研發(fā)團(tuán)隊(duì)來(lái)說(shuō)，他們想做的就是希望告訴盲人“圖片中的對(duì)象在做什么”，這和僅告訴他們“圖片里面有什么”，有相當(dāng)大的區(qū)別。

大家可以看下面一個(gè)例子：

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

Facebook用語(yǔ)音描述了一張圖片，“說(shuō)”：Image may contain one person ，on stage and playing music al instrument（該圖片可能包含了一個(gè)在舞臺(tái)上彈樂(lè)器的人）。

而它聰明的地方在于，它并沒(méi)有給出像one person，person on stage，person are playing musical instrument這樣的描述。所以這是Facebook在進(jìn)行自然語(yǔ)言處理（NLP）時(shí)，為了呈現(xiàn)出描述更符合自然語(yǔ)言所涉及到的另一個(gè)技術(shù)點(diǎn)。

進(jìn)行圖片搜索時(shí)我們同時(shí)用到了兩項(xiàng)技術(shù)，一個(gè)是平臺(tái)上的文本理解技術(shù)，另一個(gè)是計(jì)算機(jī)視覺(jué)技術(shù)，即Lumos。

深度語(yǔ)義識(shí)別產(chǎn)品： Deep Text

而我們接下來(lái)講的是基于文本理解技術(shù)的另一個(gè)產(chǎn)品Deep Text。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

就像做計(jì)算機(jī)視覺(jué)技術(shù)一樣，Deep Text所需要處理的數(shù)據(jù)量之大和大數(shù)據(jù)對(duì)系統(tǒng)的要求之高，是難以想象的。每天在Facebook上發(fā)布的翻譯帖子高達(dá)40億條。語(yǔ)言對(duì)文字內(nèi)容的依賴程度非常強(qiáng)，因此想要精確地分析短語(yǔ)語(yǔ)義，尤其是用一種語(yǔ)言來(lái)解釋在另一種語(yǔ)言中原本不存在的現(xiàn)成說(shuō)法。在這里我跟大家講一個(gè)關(guān)于語(yǔ)言翻譯的笑話，來(lái)說(shuō)明語(yǔ)言真的非常難以理解。笑話是這樣的，說(shuō)有一個(gè)人要進(jìn)行中俄互譯，英譯俄的英語(yǔ)原句本來(lái)是是“Out of sight，out of mind（看不見(jiàn)了，也就忘了）”，而再把譯成的俄語(yǔ)反譯為英語(yǔ)的時(shí)候，句子則變成了“invisible idiot（看不見(jiàn)的傻子）”

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

Deep Text的一些應(yīng)用

用于銷售

人們使用Facebook的范圍，已經(jīng)大大超出我們的想像，比如用它買賣產(chǎn)品，如下圖所示。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

你希望人們能用母語(yǔ)在上面發(fā)布信息，你需要發(fā)現(xiàn)他發(fā)布的信息中蘊(yùn)含有銷售意向，并且把帖子歸類為銷售帖，讓你能更快完成交易。

用于移動(dòng)聊天工具

Deep Text另一個(gè)核心應(yīng)用是在移動(dòng)聊天工具上。比如你和一個(gè)朋友說(shuō)“hey，我想搭個(gè)便車”， Deep Text就能識(shí)別出“需要坐車”，或者你發(fā)“我不需要搭便車”，那么它就不會(huì)出現(xiàn)任何提示，但你發(fā)“讓我們打車去那吧”，“我喜歡騎驢”，“打個(gè)的士”，“打個(gè)出租車”， “但是我需要打個(gè)的”，它都會(huì)出現(xiàn)“需要坐車”的提示。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

用于社交推薦

還有一個(gè)是用在社交推薦上。如果有人在上面發(fā)帖子，請(qǐng)朋友推薦個(gè)餐廳、美容院之類的，Deep Text就能自動(dòng)把朋友們的選擇推薦給你，并在地圖上標(biāo)出實(shí)體所處的地理位置。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

語(yǔ)音識(shí)別

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

我們平均每天轉(zhuǎn)錄約100萬(wàn)個(gè)視頻文件，為其自動(dòng)加字幕。這個(gè)功能對(duì)網(wǎng)站來(lái)說(shuō)大有益處。很多地方性團(tuán)體或企業(yè)都有網(wǎng)站，而用了我們這個(gè)功能之后，他們網(wǎng)頁(yè)的流量也會(huì)隨之增加。

除此之外，我們還做了一件非常棒的事——大開(kāi)腦洞，把自動(dòng)語(yǔ)音識(shí)別技術(shù)用在社交VR上，這個(gè)產(chǎn)品就是Social VR avatar。如果Social VR avatar發(fā)現(xiàn)有一個(gè)人正在說(shuō)話，那么它不僅能較準(zhǔn)確地還原出說(shuō)話人講的內(nèi)容，還能把他的動(dòng)作，神情等都在虛擬任務(wù)上精確還原出來(lái)。

視頻風(fēng)格變換

最后，我要介紹一下Facebook另一個(gè)超級(jí)炫酷的攝像功能。

Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人：將AI技術(shù)落地的N種方法（下）

它好玩的地方是，在你錄像的同時(shí)，相機(jī)可以為你的錄像內(nèi)容實(shí)時(shí)添加你喜歡的藝術(shù)濾鏡。我們研究這個(gè)功能的時(shí)候發(fā)現(xiàn)它實(shí)時(shí)添加濾鏡的速度太慢了。一開(kāi)始它處理一幀需要花十幾秒，但如果讓它在手機(jī)上實(shí)時(shí)添加濾鏡的話，我們要求它一秒鐘可以處理數(shù)十幀。在這里順便提一下，作為參考，其他同類可以實(shí)時(shí)添加濾鏡的應(yīng)用都是在GPU服務(wù)器上跑的。這就是我們研究的時(shí)候遇到的困難。不過(guò)后來(lái)我們找到了更好的算法模型，在和FAIR實(shí)驗(yàn)室同仁的共同努力下，解決了這個(gè)問(wèn)題。

給大家展示下面三個(gè)視頻中。第一段視頻是研發(fā)團(tuán)隊(duì)在騎自行車，你可以看到視頻時(shí)加過(guò)濾鏡的，并且是當(dāng)時(shí)實(shí)時(shí)加上去的；第二個(gè)視頻錄的是美國(guó)某個(gè)城市的公交車；第三個(gè)視頻是一個(gè)很有趣的小應(yīng)用，用戶的手移動(dòng)時(shí)，手機(jī)上的小顆粒的狀態(tài)也會(huì)隨之有變化。

所以，我今天想和大家講的關(guān)鍵點(diǎn)就在于，我們想設(shè)計(jì)能在生活中廣泛應(yīng)用的AI應(yīng)用。讓鄉(xiāng)鎮(zhèn)也能用上我們的應(yīng)用是我們要實(shí)現(xiàn)的大目標(biāo)。為了實(shí)現(xiàn)這個(gè)目標(biāo)，我們需要讓整個(gè)公司都更強(qiáng)大起來(lái)，我們需要專注于研發(fā)更多令人拍手稱贊的平臺(tái)，專注于產(chǎn)品的可用性，專注于建立更優(yōu)秀的研究團(tuán)體。

我的演講就到這里，謝謝大家。

注：想知道facebook在@scale上更多精彩分享，請(qǐng)看雷鋒網(wǎng)此前報(bào)道《強(qiáng)化學(xué)習(xí)全解；Facebook 機(jī)器學(xué)習(xí)@Scale 2017 資料匯總 | 開(kāi)發(fā)者日?qǐng)?bào)》。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

夏睿

編輯

求索于科技人文間，流連在 AI 浪潮下；我在這兒，斟酒，燃香，等你故事

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章