1
本文作者: 維文?羅杰 | 2016-12-19 10:18 |
過(guò)去十年,人們前所未有地創(chuàng)造出大量視覺(jué)內(nèi)容——從社交媒體到娛樂(lè)和制造業(yè),甚至到那些遠(yuǎn)離日常生活的繞地球衛(wèi)星。隨著近期認(rèn)知科技的進(jìn)步,比如大規(guī)模的深層學(xué)習(xí)和基于語(yǔ)義層面的可視化建模,我們開(kāi)始加速提高我們洞悉大數(shù)據(jù)的能力,此前雷鋒網(wǎng)也做過(guò)很多報(bào)道。但是追求更高水平的數(shù)據(jù)細(xì)節(jié),對(duì)于科學(xué)家而言仍然是一個(gè)挑戰(zhàn)。
雷鋒網(wǎng)消息,IBM 近日邁出了重要一步,對(duì) Watson 視覺(jué)識(shí)別圖像分類器( Watson Visual Recognition)的處理能力進(jìn)行了更新,它能讓用戶理解圖像或者是視頻中的內(nèi)容。這一系統(tǒng)內(nèi)置數(shù)萬(wàn)視覺(jué)標(biāo)簽,使其常用詞匯量比之前的模式大2.5倍。內(nèi)置詞匯量的擴(kuò)大,使其識(shí)別特殊視覺(jué)概念的能力大大提高。
新植入的視覺(jué)標(biāo)簽涵蓋了很多種類的視覺(jué)概念,其中包括物體、人、地點(diǎn)、活動(dòng)、場(chǎng)景以及其它一些關(guān)于細(xì)致特點(diǎn)類型的詞匯,比如特定的顏色。
每一類詞匯的涉及深度都有所增加,也增加了很多特定的視覺(jué)描述詞匯。這使得新植入的分類器能夠?qū)Φ湫蛨D片進(jìn)行更加精確詳細(xì)地分類。同時(shí),它也以分類等級(jí)為基礎(chǔ),對(duì)圖片增加了一般性描述——比如知道馬是一種動(dòng)物。
該服務(wù)也能通過(guò)識(shí)別細(xì)小差別來(lái)對(duì)圖片進(jìn)行詳細(xì)描述。比如圖片顯示“人們?cè)谟淇斓鼐筒汀?,那么它能夠識(shí)別出,該場(chǎng)景不只是在餐館吃飯,而是能根據(jù)視覺(jué)形象更加詳細(xì)地描述出這是在啤酒園里。比如圖片顯示這是 GAIR 全球人工智能與機(jī)器人峰會(huì)的會(huì)場(chǎng),機(jī)器也能識(shí)別出背景圖上的雷鋒網(wǎng) Logo。
視覺(jué)識(shí)別能達(dá)到這么精確的水平,是因?yàn)樗F(xiàn)在能夠平均為每個(gè)圖像至少貼上九個(gè)描述性標(biāo)簽——之前平均只有兩到三個(gè)。
IBM 機(jī)器視覺(jué)負(fù)責(zé)人 Matthew Hill 表示:“我們之所以能取得這么大的進(jìn)步,是因?yàn)槲覀冇酶鞣N各樣的攝影鏡頭獲得的大量圖片進(jìn)行了實(shí)驗(yàn),并且采用了圖形處理器(GPUs)的分布式網(wǎng)絡(luò)。 Watson 將所有這些信息都融合到具有數(shù)萬(wàn)標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò)。我們也研發(fā)出新的推論方法:利用語(yǔ)義推理優(yōu)化該服務(wù)對(duì)圖片的描述,使其更加特殊、突出、準(zhǔn)確。”
當(dāng)然,有些企業(yè)有自己的自定義數(shù)據(jù),他們想為這些數(shù)據(jù)創(chuàng)造自己的分類器。 Watson 視覺(jué)識(shí)別也有自定義開(kāi)發(fā)和分類的特點(diǎn)。當(dāng)需要該服務(wù)需要為某一領(lǐng)域?qū)W習(xí)一套新的圖像標(biāo)簽時(shí)(像產(chǎn)品組合),開(kāi)發(fā)者可以進(jìn)行快速開(kāi)發(fā),通過(guò)提供示例圖片植入新的自定義模型。然后,應(yīng)用程序可以利用自定義模型,結(jié)合最基本的服務(wù),用一般描述詞匯和特定領(lǐng)域的描述詞匯對(duì)圖片進(jìn)行描述。自定義分類器也可以通過(guò)加入新的示例圖片來(lái)進(jìn)行升級(jí)。
Hill 表示,視覺(jué)識(shí)別的發(fā)展是 IBM 持續(xù)提高 Watson 認(rèn)知領(lǐng)域能力的重要一步。它是基于世界范圍內(nèi)對(duì)視覺(jué)理解的不斷研發(fā)。視覺(jué)理解取得了一系列突破性進(jìn)展,包括利用圖像分析改善對(duì)皮膚癌患者的治療,改進(jìn)圖像自動(dòng)生成字幕技術(shù)以及突破人工智能和創(chuàng)造性的限制,制作世界上第一步認(rèn)知電影預(yù)告片等。
如果想了解更多信息,你可以點(diǎn)擊這里,獲得更多關(guān)于視覺(jué)識(shí)別服務(wù)的信息。雷鋒網(wǎng)也將對(duì)這一研究做后續(xù)關(guān)注。
via IBM
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫(xiě)作能力優(yōu)良的外翻編輯加入。
簡(jiǎn)歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。