在自家的這場競賽中，谷歌與微軟打的難解難分

本文作者：大壯旅

2015-06-10 19:26

導(dǎo)語：谷歌和微軟在微軟“語境下的普通物體(COCO)”圖像說明競賽中爭得難解難分。這一比賽旨在利用人工智能自動(dòng)生成圖像說明。

谷歌和微軟在微軟“語境下的普通物體(COCO)”圖像說明競賽中爭得難解難分。這一比賽旨在利用人工智能自動(dòng)生成圖像說明。比賽結(jié)果將在周五于波士頓舉行的電腦視覺及圖形辨識(shí)計(jì)算機(jī)視覺大會(huì)上正式宣布。

這種在最近的一項(xiàng)報(bào)告中被定義為“表演秀：一個(gè)神經(jīng)系統(tǒng)圖片信息說明生成器”的技術(shù)來自谷歌，在競賽中和微軟的兩種相獨(dú)立的系統(tǒng)表現(xiàn)一樣出色。這兩種系統(tǒng)分別被稱為“從圖像說明到視覺概念的輪回(From Captions to Visual Concepts and Back)”和“圖像說明的語言模型(Language Models for Image Captioning: The Quirks and What Works)”。來自蒙特利爾大學(xué)和多倫多大學(xué)科研人員研發(fā)的兩項(xiàng)技術(shù)也爭得難解難分。這些技術(shù)包括在成百上千張圖像中對(duì)幾個(gè)對(duì)象進(jìn)行分類并對(duì)單張圖像進(jìn)行多重的說明。

與洛杉磯加利福利亞大學(xué)的相關(guān)研究者展開合作的百度研究院在競賽中排名靠后。

競賽評(píng)委是基于系統(tǒng)說明與人類描述的相似度，以及通過圖靈測試的系統(tǒng)說明的比例進(jìn)行評(píng)判的。

這一比賽是許許多多為圖形識(shí)別系統(tǒng)研發(fā)人員設(shè)立的比賽之一。但對(duì)于谷歌來說這卻是最后的機(jī)會(huì)來證明自己的實(shí)力，那就是他們有能力對(duì)大規(guī)模的語言和文字進(jìn)行分析。

能在比賽中表現(xiàn)如此出色，主要得益于谷歌和微軟的研究人員都啟用了一種叫做深度學(xué)習(xí)的人工智能。它包括一種基于大量數(shù)據(jù)（如圖形數(shù)據(jù)）的名為人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)。運(yùn)行時(shí)，給它一個(gè)新的數(shù)據(jù)，這一系統(tǒng)就會(huì)對(duì)新的數(shù)據(jù)進(jìn)行推理并將信息反饋回來。深度學(xué)習(xí)在后臺(tái)為許多面向消費(fèi)者的網(wǎng)絡(luò)應(yīng)用提供支持，其中包括新的谷歌照片服務(wù)。

但谷歌和微軟與臉書和百度等其他公司一樣，一直在不斷提升深度學(xué)習(xí)技術(shù)。

深度學(xué)習(xí)已經(jīng)成為一種新風(fēng)尚，此時(shí)，吸引眼球的技術(shù)才是王道。從這個(gè)角度來看，谷歌和微軟看起來并沒有落后于其他公司或者學(xué)術(shù)團(tuán)隊(duì)。

想要了解微軟最前沿的圖象說明技術(shù)，可以看下這個(gè)演示。它并不完美，微軟的人臉識(shí)別系統(tǒng)同樣如此，但它也沒那么不堪。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

大壯旅

編輯

發(fā)私信

當(dāng)月熱門文章

在自家的這場競賽中，谷歌與微軟打的難解難分

在自家的這場競賽中，谷歌與微軟打的難解難分