0
本文作者: 張馳 | 2014-11-19 08:28 |
Google在圖像識(shí)別領(lǐng)域又進(jìn)了一步。據(jù)外媒報(bào)道,Google已經(jīng)公布了一個(gè)新的字幕系統(tǒng),它可以識(shí)別照片上的內(nèi)容,并自動(dòng)對(duì)它以自然語(yǔ)言進(jìn)行描述并標(biāo)記。
目前已經(jīng)有智能系統(tǒng)可以自動(dòng)標(biāo)記圖像,識(shí)別出其中的某個(gè)物體,但Google的這項(xiàng)技術(shù)可以描述的更全面,比如它的描述可能是“兩只狗在草地上玩”或“帶粉紅色帽子的小女孩在吹泡泡”。
這一軟件系統(tǒng)是Google使用大規(guī)模模擬神經(jīng)元處理數(shù)據(jù)的最新研究成果。沒(méi)人對(duì)識(shí)別場(chǎng)景的規(guī)則進(jìn)行編程,這一神經(jīng)網(wǎng)絡(luò)是自己“學(xué)”會(huì)處理數(shù)據(jù)的。
新系統(tǒng)由兩個(gè)神經(jīng)網(wǎng)絡(luò)合成,一個(gè)能處理圖像,對(duì)其內(nèi)容進(jìn)行數(shù)學(xué)化表示,供識(shí)別物體;另一網(wǎng)絡(luò)能自動(dòng)生產(chǎn)完整文字,是翻譯軟件的一部分。兩者合成后,第一個(gè)會(huì)“觀看”圖片,向第二個(gè)網(wǎng)絡(luò)反饋所看到的內(nèi)容,然后后者會(huì)將信息加工為自然語(yǔ)言。
經(jīng)過(guò)大量圖片數(shù)據(jù)測(cè)試后的結(jié)果顯示,這一系統(tǒng)得到60分(滿分100),而人類通常的結(jié)果是70分,可以說(shuō)已經(jīng)做得相當(dāng)不錯(cuò)了。這項(xiàng)技術(shù)所作的描述仍然不如人類那樣完整,但已經(jīng)為人工智能和機(jī)器學(xué)習(xí)未來(lái)帶來(lái)光明。
想像一下,這種系統(tǒng)的一個(gè)用途是幫助視障人士了解照片,說(shuō)不定,提供幾張圖片,Google也能講個(gè)睡前故事。
via mit
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。