0
本文作者: AI科技評(píng)論 | 2016-05-19 19:04 |
今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機(jī)器人峰會(huì)”,屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。
編者按:Ariel Fuxman是谷歌研究科學(xué)家,他于2006年從多倫多大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。他2015年加入谷歌,之前的8年時(shí)間在微軟擔(dān)任高級(jí)研究員。本文中他介紹了谷歌在I/O大會(huì)上新推出的智能聊天應(yīng)用Allo,到底有怎樣神奇的智能回復(fù)功能,以及這些功能是如何通過圖像識(shí)別技術(shù)實(shí)現(xiàn)。
谷歌今天發(fā)布了智能聊天應(yīng)用Allo。從開發(fā)Allo的第一天起,我們就想打造一個(gè)真正特殊的產(chǎn)品,通過機(jī)器智能的力量,讓聊天變得更加簡(jiǎn)單、更加高效、更有表達(dá)力。Allo的一些特殊功能Photo Reply。我們利用了機(jī)器學(xué)習(xí)來理解分享的圖片到底有什么內(nèi)容,從而給用戶提出豐富的自然語言回復(fù)建議,用戶只要簡(jiǎn)單點(diǎn)擊就能發(fā)送,省去了打字的麻煩。這讓用戶使用手機(jī)小鍵盤的時(shí)候,也可以非常方便地讓聊天對(duì)話比較有料。
舉個(gè)栗子,當(dāng)你的朋友升級(jí)成為父母,難免會(huì)非常激動(dòng)地給你發(fā)來(你并不感興趣的)小娃照片。
圖片來自Google Research Blog。
此時(shí)Allo就給你提供了幾個(gè)快捷回復(fù)的建議:
選項(xiàng)一:哇啊啊??!
選項(xiàng)二:好可愛!
選項(xiàng)三:可愛的寶寶!
(這完全是對(duì)曬娃無感的我,一向慣用的敷衍方式。)隨手一點(diǎn),再也不擔(dān)心友誼的小船說翻就翻。
今年冬天的時(shí)候,谷歌產(chǎn)品經(jīng)理Patrick McGregor和Ryan Cassidy給了我們一個(gè)挑戰(zhàn):敢不敢做一個(gè)簡(jiǎn)化媒體分享的聊天軟件,并且同時(shí)讓用戶玩得開心、獲得很好的谷歌體驗(yàn)。我與Vivek Ramavajjala、Sergey Nazarov和Sujith Ravi等幾位同事一起,接受挑戰(zhàn),開始打造Photo Reply。
我們利用了由機(jī)器感知團(tuán)隊(duì)開發(fā)的谷歌圖像識(shí)別技術(shù),來將圖像和語義個(gè)體聯(lián)系起來——人、動(dòng)物、汽車等等。然后,我們應(yīng)用了一個(gè)機(jī)器學(xué)習(xí)模型,將識(shí)別出來的語義個(gè)體與自然語言回復(fù)聯(lián)系起來。我們的系統(tǒng)為幾千個(gè)個(gè)體類型生成了回復(fù),這些類型是從谷歌知識(shí)圖表的一個(gè)分類學(xué)子集中取出,并且有可能在不同的粒度等級(jí)上。舉個(gè)例子,當(dāng)你收到一張小狗的照片時(shí),系統(tǒng)可能會(huì)監(jiān)測(cè)出這條狗實(shí)際上是一條拉布拉多犬,并建議你回復(fù)“超愛拉布拉多!”或者當(dāng)有人給你發(fā)了一張意大利面的照片,系統(tǒng)會(huì)監(jiān)測(cè)出意面的類型,然后說:“意大利扁面超好吃!”甚至不一定是關(guān)注細(xì)類,可以上升到美食文化的層面,回復(fù)說:“我超愛意大利美食!”
面對(duì)上圖中的意大利面,系統(tǒng)建議回復(fù):“意大利扁面超好吃!”“我超愛意大利美食!”圖片來源Google Research Blog。
面對(duì)玫瑰的圖片,系統(tǒng)建議回復(fù):“好漂亮!”“好愛玫瑰!” 圖片來源Google Research Blog。
我們發(fā)現(xiàn)系統(tǒng)有一項(xiàng)功能特別有用,就是它不僅能針對(duì)具體的物體建議回復(fù),還能針對(duì)抽象的概念。它可以針對(duì)事件(生日聚會(huì)、婚禮等等)、自然風(fēng)景(日出、遠(yuǎn)山等等)、娛樂活動(dòng)(登山、露營(yíng)等等)以及更多的類別來建議回復(fù)。另外,系統(tǒng)還可以基于與圖片內(nèi)容有關(guān)的情緒,來進(jìn)行回復(fù)建議,例如“開心”。下面的兩個(gè)例子,是針對(duì)抽象概念的回復(fù):
針對(duì)畢業(yè)典禮的圖片,系統(tǒng)建議回復(fù):“恭喜!”“你成功了!”圖片來源Google Research Blog。
針對(duì)跳傘活動(dòng)的圖片,系統(tǒng)建議回復(fù):“太刺激了!”“膽子太大了!”圖片來源Google Research Blog。
Photo Reply在運(yùn)行的時(shí)候可以識(shí)別分享照片中的語義個(gè)體,觸發(fā)針對(duì)性的回復(fù)。這項(xiàng)模型將語義個(gè)體與自然語言回復(fù)聯(lián)系起來,而模型是通過Expander離線學(xué)會(huì)的,Expander是谷歌一項(xiàng)基于圖片的大規(guī)模半監(jiān)督學(xué)習(xí)平臺(tái)。我們打造了一個(gè)很大的圖表,節(jié)點(diǎn)對(duì)應(yīng)圖片、語義個(gè)體以及文本回應(yīng)。圖像的邊界指明了圖片中的語義個(gè)體何時(shí)被識(shí)別、針對(duì)一張圖片的具體回復(fù)何時(shí)確定以及照片之間的視覺相似點(diǎn)。有一些節(jié)點(diǎn)被“標(biāo)記”了,我們通過在圖表中傳播標(biāo)記信息,來學(xué)會(huì)未標(biāo)記節(jié)點(diǎn)之間的關(guān)聯(lián)。
為了說得明白一點(diǎn),我們可以看看下面這張圖表。這里有兩張表:紅色標(biāo)記對(duì)應(yīng)“好吃”回復(fù),藍(lán)色標(biāo)記對(duì)應(yīng)“美味”回復(fù)?!耙夥邸焙汀氨饷妗边@兩個(gè)節(jié)點(diǎn)沒有標(biāo)記,但是因?yàn)樗麄兣c紅藍(lán)兩種標(biāo)記都很近,算法可以學(xué)會(huì)這兩個(gè)節(jié)點(diǎn)應(yīng)該與“好吃”和“美味”回復(fù)聯(lián)系起來。注意,通過這種方式,我們將“扁面”語義個(gè)體與“好吃”回復(fù)聯(lián)系了起來,即便是圖表中的所有扁面圖片都沒有直接與該回復(fù)有聯(lián)系。Expander可以以超大的數(shù)量來進(jìn)行此類學(xué)習(xí),搞定包含幾十億個(gè)節(jié)點(diǎn)、幾千億個(gè)邊界的圖表。
圖表例子。圖片來自Google Research Blog。
Photo Reply是多模式學(xué)習(xí)的一個(gè)很棒的例子,在這種學(xué)習(xí)模式中,計(jì)算機(jī)視覺和自然語言處理結(jié)合起來,從而創(chuàng)造出一種非常好的用戶體驗(yàn)。今年夏天晚些時(shí)候,Allo就會(huì)正式上線安卓和IOS平臺(tái)。到時(shí)候記得用Allo發(fā)發(fā)照片,看看谷歌的人工智能到底會(huì)如何回復(fù)呢?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。