丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
特寫 正文
發(fā)私信給宗仁
發(fā)送

3

親測(cè):讓盲人“看見(jiàn)”圖片 我們離這項(xiàng)黑科技有多遠(yuǎn)

本文作者: 宗仁 2016-04-18 08:20
導(dǎo)語(yǔ):iPhone自帶的voiceover功能對(duì)于本來(lái)有文字描述的東西都能讀出來(lái),這跟Facebook本身圖片識(shí)別的功能牛不牛掰并無(wú)關(guān)系,真正牛掰的是它對(duì)沒(méi)有任何標(biāo)簽

當(dāng)我們還在為語(yǔ)音識(shí)別的普及歡呼雀躍的時(shí)候,圖像識(shí)別像暗夜里的蔓藤,正悄悄地在伸展自己的身體。

上周Facebook告訴我們它們正在開(kāi)發(fā)的功能已經(jīng)能讓盲人”看到“圖片的時(shí)候,曬圖狂們突然發(fā)現(xiàn),哇,原來(lái)圖像識(shí)別已經(jīng)離我們的生活如此之近,以至于盲人伯伯們也能用聽(tīng)的方式get到你此時(shí)正在三里屯撩妹的信息巴拉巴拉……但在毫無(wú)標(biāo)簽的情況下識(shí)別也太那個(gè)了,是不是用了什么非常手段?是不是欺負(fù)咱們不懂科學(xué)?

當(dāng)然!黑科技只能用黑科技的辦法解決。

實(shí)際牛掰的東東

雷鋒網(wǎng)先帶各位來(lái)回顧一下Facebook發(fā)布的這款黑科技————能對(duì)圖片上的內(nèi)容進(jìn)行自動(dòng)描述,從而讓盲人或視覺(jué)障礙患者“看到”圖片。該工具可對(duì)照片進(jìn)行自動(dòng)文本處理,從而讓用戶聽(tīng)到照片上的內(nèi)容描述,如“有三個(gè)人,面帶微笑,站在戶外”等。

借助VPN翻墻到iPhone版Facebook后,發(fā)現(xiàn)iPhone自帶的voiceover功能對(duì)于本來(lái)有文字描述的東西都能讀出來(lái),這跟Facebook本身圖片識(shí)別的功能牛不牛掰并無(wú)關(guān)系,真正牛掰的是它對(duì)沒(méi)有任何標(biāo)簽圖片里物體的識(shí)別能力。

親測(cè):讓盲人“看見(jiàn)”圖片  我們離這項(xiàng)黑科技有多遠(yuǎn)

實(shí)際體驗(yàn)的效果,雷鋒網(wǎng)按下Voiceover后暫時(shí)聽(tīng)到還只是“two people in the story,actions is available” 這樣的效果,試了其它圖片(中國(guó)長(zhǎng)城風(fēng)景圖,非洲沙漠和人圖片,一堆人聚餐圖片),得到的反饋跟這個(gè)差別不大,目前還沒(méi)聽(tīng)到特別連貫的描述。(莫非因?yàn)榘呈欠瓑τ脩簦泽w驗(yàn)不純正?強(qiáng)烈期待中國(guó)版上線!)

但就Facebook自己允諾的目標(biāo)——————能讓用戶聽(tīng)到照片上的內(nèi)容描述,如“有三個(gè)人,面帶微笑,站在戶外”等。圖普科技海洋直言:這種難度蠻大的,主要在于準(zhǔn)確率方面,對(duì)于單一標(biāo)簽的圖片(僅識(shí)別人物或者物體)可以把識(shí)別準(zhǔn)確率訓(xùn)練得很高,但對(duì)于組合來(lái)說(shuō),很難保證超高的識(shí)別準(zhǔn)去率。

跟ImageNet有關(guān)

2014年9月的時(shí)候Google的圖片識(shí)別技術(shù)還是遙遙領(lǐng)先的,當(dāng)時(shí)媒體給的標(biāo)題也是《技高一籌?最新的Google圖片識(shí)別技術(shù)能夠“認(rèn)出”大部分物品

在那年的ImageNet圖像識(shí)別比賽里面,隸屬于Google的GoogLeNet團(tuán)隊(duì)刷新了“分類和偵測(cè)”記錄,挑戰(zhàn)主要遵循三個(gè)步驟:分類、分類并鎖定以及偵測(cè),當(dāng)時(shí)其精度比前年的記錄提升了兩倍。當(dāng)時(shí)從谷歌發(fā)布的照片中我們可以看出,目前這項(xiàng)技術(shù)可以識(shí)別出我們常見(jiàn)的物體,比如寵物貓、雞蛋、香蕉、橘子、電視機(jī)、顯示器、書(shū)架等。

親測(cè):讓盲人“看見(jiàn)”圖片  我們離這項(xiàng)黑科技有多遠(yuǎn)

然后到了2015年12月的時(shí)候,媒體給的標(biāo)題是 《ImageNet圖像識(shí)別大賽 微軟打敗谷歌獲多項(xiàng)第一》,也就是說(shuō)當(dāng)年這個(gè)名譽(yù)易主給微軟了。

當(dāng)時(shí)ImageNet圖像識(shí)別大賽要求選手所設(shè)計(jì)的圖像系統(tǒng)能準(zhǔn)確定位來(lái)自Flickr和搜索引擎的10萬(wàn)張圖片,并把圖片劃分入1000個(gè)物體分類中(狼蛛、iPod、清真寺、玩具店、調(diào)制解調(diào)器等),錯(cuò)誤率越低越好。微軟參賽系統(tǒng)的分類錯(cuò)誤率為3.5%,定位錯(cuò)誤率為9%。在整個(gè)比賽中,微軟打敗谷歌獲多項(xiàng)第一。

親測(cè):讓盲人“看見(jiàn)”圖片  我們離這項(xiàng)黑科技有多遠(yuǎn)

可誰(shuí)也沒(méi)有想到,使用了這項(xiàng)功能后讓大家覺(jué)得最“黑科技”的卻是坐擁14億個(gè)用戶社交圖片網(wǎng)站的Facebook。實(shí)話說(shuō),要比圖片庫(kù)Facebook不一定比Google多,但是用戶對(duì)單張圖片信息量的關(guān)注度,在Facebook上一定比Google強(qiáng),就好比我們每天會(huì)去刷大量朋友圈看好友的點(diǎn)點(diǎn)滴滴,但不會(huì)沒(méi)事就往搜索引擎里傳圖片……而現(xiàn)在,盲人們也能天天刷Facebook“看”好友的點(diǎn)點(diǎn)滴滴,讓我們一下子就get到這個(gè)點(diǎn)的牛掰之處了。

實(shí)現(xiàn)路徑

體驗(yàn)過(guò)一把FB后雷鋒網(wǎng)發(fā)現(xiàn),F(xiàn)acebook這個(gè)功能實(shí)際上是跟iPhone自帶的voiceover功能一起使用的,voiceover功能能辨別出所有的text文字然后念出來(lái),所以它這項(xiàng)技術(shù)的核心實(shí)際上是對(duì)毫無(wú)標(biāo)簽圖片的辨別能力。

對(duì)于毫無(wú)標(biāo)簽圖片的鑒別能力,根據(jù)Facebook自己的解釋,主要通過(guò)3個(gè)路徑解決:

  1. 自動(dòng)可替代文本。(以往,F(xiàn)acebook會(huì)統(tǒng)一把用戶上傳的圖片的可替代文本設(shè)置為“XXX的照片”,但現(xiàn)在它會(huì)基于人工智能,自動(dòng)根據(jù)照片內(nèi)容進(jìn)行替換,因此被稱為自動(dòng)可替換文本。)

  2. 運(yùn)用深度學(xué)習(xí)(圖片識(shí)別引擎的核心是一個(gè)包含數(shù)百萬(wàn)個(gè)可學(xué)習(xí)的參數(shù)的深度卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)acebook的計(jì)算機(jī)視覺(jué)平臺(tái)能夠非常簡(jiǎn)單地收集并分析上百萬(wàn)張照片,并在監(jiān)督下學(xué)習(xí)進(jìn)步。)

  3. 進(jìn)一步組織語(yǔ)句。(在進(jìn)行了多次實(shí)驗(yàn)室研究后,他們決定把圖片中的內(nèi)容分為3個(gè)類別:人、物體和場(chǎng)景,在描述圖片時(shí),也會(huì)按照這樣的次序。)

說(shuō)起來(lái)很簡(jiǎn)單,那它實(shí)現(xiàn)起來(lái)有多難?

曾在阿里負(fù)責(zé)圖像識(shí)別和搜索產(chǎn)品的趙京雷,現(xiàn)readface創(chuàng)始人表示:

從視覺(jué)識(shí)別的角度,深度學(xué)習(xí)出現(xiàn)以后,它的難點(diǎn)主要在大規(guī)??捎糜?xùn)練數(shù)據(jù)和算法上

從數(shù)據(jù)層面上來(lái)講,要“教會(huì)”計(jì)算機(jī)去識(shí)別、描述一個(gè)圖片的內(nèi)容,一方面要識(shí)別圖片中出現(xiàn)了什么樣的物品,另一方面要描述這些物品中的關(guān)聯(lián)。

比如對(duì)于‘一個(gè)人坐在湖邊釣魚(yú)’這樣的圖片,要描述出來(lái),最基本的要識(shí)別出:人、湖和釣魚(yú)竿;識(shí)別出物品之后還要能夠確定三者之間的關(guān)系。

世界上形形色色的物品種類繁多,構(gòu)建可靠的標(biāo)注數(shù)據(jù)集,使得針對(duì)每類物品都有足夠的標(biāo)注樣本,去指導(dǎo)學(xué)習(xí)算法習(xí)得物品種類概念,本身工作量巨大。而同類的物品之間,又存在不同可能的關(guān)系。要對(duì)這些可能的關(guān)系,構(gòu)建足夠的樣本數(shù)據(jù),工作量會(huì)更大。

在計(jì)算機(jī)視覺(jué)的學(xué)術(shù)界,(我記得)斯坦福前些年推出“ImageNet”,人工對(duì)百萬(wàn)圖片標(biāo)注里面出現(xiàn)的物品種類,ImageNet在過(guò)去幾年推動(dòng)了對(duì)照片中通用物品識(shí)別技術(shù)的發(fā)展。而為了進(jìn)一步確定不同物品的關(guān)系,斯坦福去年推出新的數(shù)據(jù)集“Visual Genome ”,致力于在ImageNet的基礎(chǔ)上,刻畫(huà)出物品的關(guān)系。Genome數(shù)據(jù)集針對(duì)一副圖片,把結(jié)構(gòu)化的圖像概念和語(yǔ)言聯(lián)系起來(lái)。

從機(jī)器學(xué)習(xí)的角度出發(fā),這些人工標(biāo)注的數(shù)據(jù)奠定了對(duì)圖片進(jìn)行文本描述的基礎(chǔ)。當(dāng)然,在這個(gè)基礎(chǔ)之上,怎樣實(shí)現(xiàn)更加精準(zhǔn)的識(shí)別,就取決于底層的很多算法和數(shù)據(jù)處理手段了。如果想做到工業(yè)級(jí)應(yīng)用,針對(duì)大規(guī)模通用物品的識(shí)別,算法的精度和效率等很多方面都是非常具有挑戰(zhàn)的。

這次Facebook推出的產(chǎn)品,(我推測(cè))在很大程度上可能使用了自己的類似“Genome”的數(shù)據(jù)庫(kù),然后利用機(jī)器學(xué)習(xí)技術(shù)習(xí)得圖片中的物品與其可能的關(guān)系。

隨后,雷鋒網(wǎng)將這張圖片(來(lái)源于雷鋒網(wǎng)對(duì)電影的手動(dòng)截圖,都是第一次,沒(méi)有標(biāo)注相關(guān)標(biāo)簽上傳到 Facebook賬號(hào)和百度圖片平臺(tái)上的)傳到百度圖片的檢測(cè)庫(kù),暫時(shí)給出的“暫無(wú)猜詞”,只是給出了相似圖片推薦。

親測(cè):讓盲人“看見(jiàn)”圖片  我們離這項(xiàng)黑科技有多遠(yuǎn)


而當(dāng)雷鋒網(wǎng)把這張圖片上傳到搜狗圖片的檢測(cè)庫(kù),顯示的是“婚禮,女孩”,然后給出了相似圖片推薦,

親測(cè):讓盲人“看見(jiàn)”圖片  我們離這項(xiàng)黑科技有多遠(yuǎn)

雖然不一定能說(shuō)明決定性的問(wèn)題,但從這兩個(gè)國(guó)內(nèi)國(guó)內(nèi)平臺(tái)對(duì)圖片的小測(cè)試看,要說(shuō)出在哪個(gè)場(chǎng)景,有什么物體和人一定關(guān)系的語(yǔ)句,就目前的圖片識(shí)別技術(shù)還是挺有難度的。

國(guó)內(nèi)能不能來(lái)一發(fā)

圖普科技的海洋告訴雷鋒網(wǎng),目前這個(gè)難度蠻大的。

主要是準(zhǔn)確率方面。對(duì)于單一標(biāo)簽的圖片(僅識(shí)別人物或者僅識(shí)別物體)可以把識(shí)別準(zhǔn)確率訓(xùn)練得很高,對(duì)于這種組合起來(lái)的,很難保證識(shí)別準(zhǔn)確的。


我們自己就有個(gè)通用物體識(shí)別的接口,可以識(shí)別超過(guò)兩萬(wàn)種物體。但是你會(huì)發(fā)現(xiàn)我們識(shí)別出來(lái)以后一般都會(huì)按照相關(guān)度給幾個(gè)建議的。相關(guān)度越高機(jī)器越確定。


我們本身也有場(chǎng)景識(shí)別和人物類別識(shí)別,單一的接口識(shí)別準(zhǔn)確率都很高。組合起來(lái)就可以進(jìn)行簡(jiǎn)單語(yǔ)義分析了,比如在教室里有三個(gè)年輕女人……但是再加上物體,加上動(dòng)作去分析那個(gè)人在干嘛,這個(gè)挺難的。比如超市前站著一個(gè)老年人在吃面包,這個(gè)目前很難描述出來(lái)啊。我也感興趣臉書(shū)是怎樣做的,到了什么程度……

對(duì)于Facebook宣稱的可以對(duì)特定種類物體目前做到較高的識(shí)別率,商湯科技的楊帆則告訴雷鋒網(wǎng),如果除掉voiceover這個(gè)向蘋果“借用”的功能,F(xiàn)acebook這次黑科技的核心只是對(duì)沒(méi)有任何標(biāo)簽的圖片里物體進(jìn)行識(shí)別

那這是屬于一般性物體檢測(cè),主要依靠高維信息特征識(shí)別,國(guó)際權(quán)威競(jìng)賽Imagenet中有幾項(xiàng)分競(jìng)賽就是比這個(gè),但Facebook這項(xiàng)黑科技那么多人關(guān)注,可綜合識(shí)別率并不是很高,但可能某些類可以做的比較高而已。

那么說(shuō)在國(guó)內(nèi)也能實(shí)現(xiàn)?

(理論上可以)但不付出時(shí)間,沒(méi)有那么簡(jiǎn)單。

對(duì)于這一點(diǎn),F(xiàn)acebook也沒(méi)有跟我們裝逼,F(xiàn)acebook自己也承認(rèn)為了保證可靠,F(xiàn)acebook還是花了10個(gè)月的時(shí)間,經(jīng)過(guò)反復(fù)測(cè)試,才上線了自動(dòng)可替換文本功能。目前,F(xiàn)acebook的識(shí)別引擎能保證至少80%的準(zhǔn)確率?!?/span>

意義遠(yuǎn)不止于盲人

按上面的邏輯,如果國(guó)內(nèi)公司想做的話,同樣花上個(gè)10個(gè)月再加上深度學(xué)習(xí)的助力,應(yīng)該也能做成,畢竟大家都是有點(diǎn)底子的。比如悄悄一查,你會(huì)發(fā)現(xiàn)百度圖片,搜狗圖片都有類似的圖片識(shí)別的功能,一些非搜索引擎公司的第三方團(tuán)隊(duì)也有類似的圖片識(shí)別功能,包括sensetime,image++,美圖,騰訊優(yōu)圖等。

但有個(gè)問(wèn)題,  這項(xiàng)技術(shù)的意義遠(yuǎn)不在于幫盲人看見(jiàn)圖片。

一個(gè)很簡(jiǎn)單的邏輯,我們身邊的盲人很少有會(huì)用手機(jī)上網(wǎng)的,會(huì)用手機(jī)上微信的就更少了,F(xiàn)acebook這次用幫忙人看見(jiàn)點(diǎn)來(lái)宣傳黑科技,只是讓讀者一目了然地感受到這個(gè)技術(shù)牛掰的精髓,若放到實(shí)際應(yīng)用中,搜索引擎用它來(lái)識(shí)別小黃圖的上傳,社交網(wǎng)站用它來(lái)識(shí)別罪犯的蹤跡,好友的生活足跡,進(jìn)一步去推斷出一些蛛絲馬跡的東西,比幫盲人“看見(jiàn)”的作用要更廣泛和厲害。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

專注AIR(人工智能+機(jī)器人)

專注人工智能+機(jī)器人報(bào)道,經(jīng)驗(yàn)分享請(qǐng)加微信keatslee8(請(qǐng)注明原因)。 科學(xué)的本質(zhì)是:?jiǎn)栆粋€(gè)不恰當(dāng)?shù)膯?wèn)題,于是走上了通往恰當(dāng)答案的路。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)