4
本文作者: 大壯旅 | 2015-06-10 19:26 |
谷歌和微軟在微軟“語境下的普通物體(COCO)”圖像說明競賽中爭得難解難分。這一比賽旨在利用人工智能自動(dòng)生成圖像說明。比賽結(jié)果將在周五于波士頓舉行的電腦視覺及圖形辨識(shí)計(jì)算機(jī)視覺大會(huì)上正式宣布。
這種在最近的一項(xiàng)報(bào)告中被定義為“表演秀:一個(gè)神經(jīng)系統(tǒng)圖片信息說明生成器”的技術(shù)來自谷歌,在競賽中和微軟的兩種相獨(dú)立的系統(tǒng)表現(xiàn)一樣出色。這兩種系統(tǒng)分別被稱為“從圖像說明到視覺概念的輪回(From Captions to Visual Concepts and Back)”和“圖像說明的語言模型(Language Models for Image Captioning: The Quirks and What Works)”。來自蒙特利爾大學(xué)和多倫多大學(xué)科研人員研發(fā)的兩項(xiàng)技術(shù)也爭得難解難分。這些技術(shù)包括在成百上千張圖像中對幾個(gè)對象進(jìn)行分類并對單張圖像進(jìn)行多重的說明。
與洛杉磯加利福利亞大學(xué)的相關(guān)研究者展開合作的百度研究院在競賽中排名靠后。
競賽評委是基于系統(tǒng)說明與人類描述的相似度,以及通過圖靈測試的系統(tǒng)說明的比例進(jìn)行評判的。
這一比賽是許許多多為圖形識(shí)別系統(tǒng)研發(fā)人員設(shè)立的比賽之一。但對于谷歌來說這卻是最后的機(jī)會(huì)來證明自己的實(shí)力,那就是他們有能力對大規(guī)模的語言和文字進(jìn)行分析。
能在比賽中表現(xiàn)如此出色,主要得益于谷歌和微軟的研究人員都啟用了一種叫做深度學(xué)習(xí)的人工智能。它包括一種基于大量數(shù)據(jù)(如圖形數(shù)據(jù))的名為人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)。運(yùn)行時(shí),給它一個(gè)新的數(shù)據(jù),這一系統(tǒng)就會(huì)對新的數(shù)據(jù)進(jìn)行推理并將信息反饋回來。深度學(xué)習(xí)在后臺(tái)為許多面向消費(fèi)者的網(wǎng)絡(luò)應(yīng)用提供支持,其中包括新的谷歌照片服務(wù)。
但谷歌和微軟與臉書和百度等其他公司一樣,一直在不斷提升深度學(xué)習(xí)技術(shù)。
深度學(xué)習(xí)已經(jīng)成為一種新風(fēng)尚,此時(shí),吸引眼球的技術(shù)才是王道。從這個(gè)角度來看,谷歌和微軟看起來并沒有落后于其他公司或者學(xué)術(shù)團(tuán)隊(duì)。
想要了解微軟最前沿的圖象說明技術(shù),可以看下這個(gè)演示。它并不完美,微軟的人臉識(shí)別系統(tǒng)同樣如此,但它也沒那么不堪。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。