0
本文作者: 張馳 | 2014-11-19 08:28 |
Google在圖像識別領域又進了一步。據(jù)外媒報道,Google已經公布了一個新的字幕系統(tǒng),它可以識別照片上的內容,并自動對它以自然語言進行描述并標記。
目前已經有智能系統(tǒng)可以自動標記圖像,識別出其中的某個物體,但Google的這項技術可以描述的更全面,比如它的描述可能是“兩只狗在草地上玩”或“帶粉紅色帽子的小女孩在吹泡泡”。
這一軟件系統(tǒng)是Google使用大規(guī)模模擬神經元處理數(shù)據(jù)的最新研究成果。沒人對識別場景的規(guī)則進行編程,這一神經網絡是自己“學”會處理數(shù)據(jù)的。
新系統(tǒng)由兩個神經網絡合成,一個能處理圖像,對其內容進行數(shù)學化表示,供識別物體;另一網絡能自動生產完整文字,是翻譯軟件的一部分。兩者合成后,第一個會“觀看”圖片,向第二個網絡反饋所看到的內容,然后后者會將信息加工為自然語言。
經過大量圖片數(shù)據(jù)測試后的結果顯示,這一系統(tǒng)得到60分(滿分100),而人類通常的結果是70分,可以說已經做得相當不錯了。這項技術所作的描述仍然不如人類那樣完整,但已經為人工智能和機器學習未來帶來光明。
想像一下,這種系統(tǒng)的一個用途是幫助視障人士了解照片,說不定,提供幾張圖片,Google也能講個睡前故事。
via mit
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。