0
本文作者: 王星 | 2014-06-24 12:50 |
上周,亞馬遜推出了其首款智能手機(jī)Fire Phone,其中號(hào)稱能“掃描一切”的圖像識(shí)別應(yīng)用Firefly被認(rèn)為是該產(chǎn)品上最大的亮點(diǎn),也引起了業(yè)界對(duì)于圖像識(shí)別技術(shù)的新一輪關(guān)注。
另一方面,由于Fire Phone尚未出貨,許多關(guān)注Firefly的人對(duì)這款產(chǎn)品提出了一系列疑問(wèn):它的識(shí)別準(zhǔn)確度如何?亞馬遜的數(shù)據(jù)是否能幫它建立起門(mén)檻?它又會(huì)給圖像識(shí)別領(lǐng)域帶來(lái)怎樣的影響?
在此之前,已有不少圖像識(shí)別領(lǐng)域的創(chuàng)業(yè)團(tuán)隊(duì)在圖書(shū)、商品、人臉、視頻識(shí)別方面做了不少嘗試,并推出了相關(guān)應(yīng)用,例如來(lái)自提供圖像識(shí)別和增強(qiáng)現(xiàn)實(shí)解決方案的亮風(fēng)臺(tái)、專注于人臉識(shí)別的Face++以及來(lái)自硅谷的圖像識(shí)別創(chuàng)業(yè)公司Orbeus。
近日,亮風(fēng)臺(tái)創(chuàng)始人廖春元、Face++聯(lián)合創(chuàng)始人印奇以及Orbeus的聯(lián)合創(chuàng)始人劉天強(qiáng)、王盟先后接受了雷鋒網(wǎng)的采訪,談及了自己對(duì)于Firefly的看法。
雷鋒網(wǎng):之前是否關(guān)注過(guò)亞馬遜在圖像識(shí)別方面的進(jìn)展?
廖春元:在4、5年前,亞馬遜收購(gòu)了SnapTell公司時(shí)就開(kāi)始關(guān)注。
王盟:亞馬遜一直花了很多精力做圖像識(shí)別,在歷屆計(jì)算機(jī)視覺(jué)會(huì)議上都能看到他們的身影。他們的A9團(tuán)隊(duì)一直在做基于特征點(diǎn)的圖像匹配,效果還不錯(cuò)。
印奇:有。之前亞馬遜就推出了Flow這個(gè)應(yīng)用,它是Firefly的前身,在移動(dòng)端商品、視覺(jué)搜索領(lǐng)域做出了很前沿的嘗試。
雷鋒網(wǎng):你認(rèn)為亞馬遜在圖書(shū)封面、商品包裝、視頻流媒體方面的圖像識(shí)別的準(zhǔn)確率能達(dá)到怎樣的水平?
王盟:圖書(shū)封面、商品包裝基本已經(jīng)很成熟了。產(chǎn)品實(shí)物識(shí)別還比較難,不過(guò)隨著最近幾年深度學(xué)習(xí)的成熟,被解決的時(shí)機(jī)也指日可待。
廖春元:沒(méi)有專門(mén)的測(cè)試集我無(wú)法給出準(zhǔn)確估計(jì),但亞馬遜在這方面布局很久,應(yīng)該不差。
雷鋒網(wǎng):在Firefly涉及到的這些領(lǐng)域里,哪一個(gè)的技術(shù)難度最高?
印奇:這些技術(shù)里,類似圖書(shū)封面這類的視覺(jué)搜索相對(duì)簡(jiǎn)單,因?yàn)橛泻芏鄨D像和OCR的信息。商品包裝和流媒體搜索用的是不同技術(shù),都很有挑戰(zhàn)性。
廖春元:在識(shí)別圖書(shū)、包裝和視頻等內(nèi)容中,識(shí)別技術(shù)上應(yīng)該都差不多。如果要根據(jù)視頻中任意一幀,識(shí)別出該視頻的來(lái)源,則難度會(huì)相對(duì)高一些,因?yàn)樾枰饕臇|西比普通書(shū)籍封面等多得多。
王盟:準(zhǔn)確的文字檢測(cè)。
劉天強(qiáng):就單純圖像、模式識(shí)別這些方面,識(shí)別精度亞馬遜并不出眾,但是Fire Phone設(shè)計(jì)上,多攝像頭對(duì)于形成物體的三維信息有很大的幫助,因此對(duì)于物體識(shí)別來(lái)說(shuō),他們能夠拿到比其他手機(jī)更全的信息,降低了識(shí)別的門(mén)檻。具體來(lái)說(shuō),其技術(shù)特點(diǎn)在于:一是用更多的特征數(shù)據(jù)來(lái)區(qū)分物體,二是將算法構(gòu)架在Amazon巨大的商品數(shù)據(jù)庫(kù)上面,三是對(duì)區(qū)分算法精度要求很高(如果正如他們聲稱的能夠識(shí)別超過(guò)一億類的物品,實(shí)在是一件了不起的工作)。
雷鋒網(wǎng):亞馬遜擁有大量的圖書(shū)、商品、電影資源,他們的數(shù)據(jù)庫(kù)是否能夠成為他們?cè)谶@些領(lǐng)域的圖像識(shí)別方面的門(mén)檻?
印奇:數(shù)據(jù)一定是一個(gè)核心資源,但未來(lái)這些數(shù)據(jù)一定會(huì)越來(lái)越開(kāi)放。最終還是“搜索引擎”本身的技術(shù)能有多準(zhǔn)確,多普適。
劉天強(qiáng):當(dāng)然,這是這項(xiàng)技術(shù)最高的門(mén)檻,算法誰(shuí)都可以提高,但是數(shù)據(jù)卻并不是誰(shuí)都有,海量的帶標(biāo)注的數(shù)據(jù),就更加難得。
廖春元:是的。
雷鋒網(wǎng):你們是否會(huì)與其他的電商、視頻網(wǎng)站合作推出類似的產(chǎn)品?
劉天強(qiáng):目前我們?cè)贏pp store上已經(jīng)有了ReKoEye這個(gè)應(yīng)用,掃描物品得到其信息,暫時(shí)沒(méi)有推出類似產(chǎn)品的計(jì)劃,因?yàn)閮蓚€(gè)原因。第一,算法精度達(dá)不到識(shí)別具體品牌的程度,例如我們可以識(shí)別某個(gè)物體是衣服,甚至可以識(shí)別出衣服的種類,但是識(shí)別不出來(lái)是哪些牌子,這會(huì)給消費(fèi)者產(chǎn)生誤導(dǎo)。想象這樣的場(chǎng)景:一個(gè)用戶用我們的app掃眼前朋友身上的衣服,我們App就告訴她這是件短袖,然后推薦網(wǎng)站上同顏色的短袖,這件事情不是不能做,但目前已經(jīng)有不少相關(guān)App出現(xiàn),個(gè)別app還依托于電商巨頭的數(shù)據(jù)庫(kù)(哪一家你懂的?。?,在商業(yè)上的表現(xiàn)也就是不溫不火。第二,我們認(rèn)為這類App,并不是目前物體識(shí)別技術(shù)最佳的應(yīng)用領(lǐng)域,因?yàn)槟壳暗募夹g(shù)更加適合在大的數(shù)據(jù)集上跑,做統(tǒng)計(jì)、做搜索或者視頻更合適,而無(wú)法保證對(duì)單張圖片的識(shí)別95%以上都正確,這樣就很難做到很好的用戶體驗(yàn)。
雷鋒網(wǎng):此前是否有手機(jī)廠商希望與你們合作,把圖像識(shí)別的功能深度集成在手機(jī)中?
印奇:我們的技術(shù)被應(yīng)用在很多手機(jī)中,但現(xiàn)階段都沒(méi)有做深度合作,未來(lái)有可能。
劉天強(qiáng):有的,還不少,也考慮過(guò),但是我們暫時(shí)打算繼續(xù)堅(jiān)持云計(jì)算路線,因?yàn)槲覀兿嘈盼磥?lái)多媒體數(shù)據(jù)最終一定都是在云端的。
廖春元:是,比如最近和Oppo合作推出的O-video就有類似功能,只不過(guò)數(shù)據(jù)量沒(méi)有亞馬遜大,還在擴(kuò)充中。
雷鋒網(wǎng):Firefly會(huì)給整個(gè)圖像識(shí)別領(lǐng)域帶來(lái)怎樣的影響?
劉天強(qiáng):3D方面的識(shí)別會(huì)被帶起來(lái),之前深度學(xué)習(xí)等工作,目前在視覺(jué)上比較常見(jiàn)的領(lǐng)域還是2D圖像,如果亞馬遜這種布局?jǐn)z像頭的方式成為業(yè)界普遍接受的標(biāo)準(zhǔn),那么甚至有可能本質(zhì)改變圖像的表示形式,例如現(xiàn)在圖像就是由像素點(diǎn)組成的,未來(lái)會(huì)不會(huì)由三維點(diǎn)陣組成的3D模型呢?讓我們拭目以待。
廖春元:會(huì)加速教育用戶,刺激創(chuàng)新,推動(dòng)這個(gè)領(lǐng)域技術(shù)的產(chǎn)品化
印奇:Firefly算是第一個(gè)大規(guī)模商業(yè)化的移動(dòng)端視覺(jué)搜索,會(huì)是里程碑意義的?,F(xiàn)在大家都在想什么才是真正移動(dòng)搜索的形態(tài),也許Firefly會(huì)給大家很多啟發(fā)。
雷鋒網(wǎng):對(duì)你們公司呢?
印奇:未來(lái)我們會(huì)在人臉識(shí)別領(lǐng)域持續(xù)專注的同時(shí),會(huì)從人臉領(lǐng)域擴(kuò)展到更廣的圖像識(shí)別理解領(lǐng)域。不排除做視覺(jué)搜索的可能性。
廖春元:既有挑戰(zhàn)也有機(jī)會(huì)。挑戰(zhàn)是在世界范圍內(nèi)有這樣強(qiáng)勁的對(duì)手;機(jī)會(huì)是為我們樹(shù)立了一個(gè)行業(yè)標(biāo)桿,加速中國(guó)市場(chǎng)的培育。
王盟:讓人們知道我們的東西的重要性。
雷鋒網(wǎng):它能否幫助用戶真正養(yǎng)成用手機(jī)掃描圖片、視頻進(jìn)行識(shí)別的習(xí)慣?
劉天強(qiáng):亞馬遜不是第一家做了類似的產(chǎn)品,過(guò)去其他公司用了眾包的方法做,比如IQ Engine和Camera Find,效果也很精確,但暫時(shí)都沒(méi)有取得商業(yè)上的成功。亞馬遜和他們的區(qū)別在于識(shí)別全自動(dòng),但對(duì)于真正需要購(gòu)買(mǎi)該商品的用戶來(lái)講,不會(huì)在乎多等幾秒鐘時(shí)間,更何況目前亞馬遜的App如果沒(méi)有Fire Phone的支持,對(duì)于非剛性的物體的識(shí)別精度還不夠,不如目前市面上做物體識(shí)別的許多公司,比如我們Orbeus。
廖春元:手機(jī)掃描只是交互的實(shí)現(xiàn)方式。從用戶體驗(yàn)的本源來(lái)看,當(dāng)一個(gè)人看到當(dāng)下周邊環(huán)境中有感興趣的目標(biāo)時(shí),的確有沖動(dòng)想要了解更多。這個(gè)產(chǎn)品以簡(jiǎn)單的輸入方式滿足用戶的這種需求,借助亞馬遜強(qiáng)大的內(nèi)容和技術(shù)資源,是有可能培養(yǎng)用戶習(xí)慣的。也許將來(lái)不一定是用手機(jī),可能是和智能眼鏡,但視覺(jué)搜索這個(gè)功能會(huì)像當(dāng)年的關(guān)鍵字搜索一樣成為生活必需。
印奇:我覺(jué)得因?yàn)樵谑謾C(jī)端文字輸入太低效,未來(lái)大家一定會(huì)像現(xiàn)在習(xí)慣掃二維碼一樣習(xí)慣去掃更多的東西,F(xiàn)irefly是一個(gè)很好的開(kāi)端。
雷鋒網(wǎng):Firefly也提供了SDK,會(huì)有更多人用他們的圖像識(shí)別技術(shù)直接開(kāi)發(fā)應(yīng)用,是否擔(dān)心它會(huì)對(duì)你們帶來(lái)沖擊?
劉天強(qiáng):當(dāng)然,在物體識(shí)別這個(gè)領(lǐng)域必然會(huì)有競(jìng)爭(zhēng),但是Orbeus的技術(shù)更加細(xì)分,除了物體場(chǎng)景識(shí)別外,還支持用戶自定義數(shù)據(jù)庫(kù),而不僅僅只是識(shí)別亞馬遜庫(kù)里才有的商品。例如用戶想識(shí)別狗,想識(shí)別貓,這些活物,就不會(huì)是亞馬遜上的商品;再比如用戶希望手機(jī)能識(shí)別所有Facebook的好友的臉,這些數(shù)據(jù)集都是非常個(gè)性化的,亞馬遜并不具備這方面的技術(shù)優(yōu)勢(shì),對(duì)他們目前的布局也沒(méi)有太大的貢獻(xiàn)。因此,在大的識(shí)別領(lǐng)域,我們并不構(gòu)成競(jìng)爭(zhēng)。
廖春元:作為一個(gè)成功的產(chǎn)品,除了識(shí)別算法外,本地化的數(shù)據(jù)積累、產(chǎn)品設(shè)計(jì)、市場(chǎng)營(yíng)銷等都必不可少。我們?cè)趪?guó)內(nèi)有先發(fā)優(yōu)勢(shì),這和云計(jì)算領(lǐng)域國(guó)內(nèi)產(chǎn)品和AWS的競(jìng)爭(zhēng)類似。另一方面,使用SDK開(kāi)發(fā)會(huì)有一定局限性,難以在垂直領(lǐng)域優(yōu)化性能;而我們公司擁有自己的全套自主知識(shí)產(chǎn)權(quán)識(shí)別算法和系統(tǒng),最靈活,最容易單點(diǎn)突破。
雷鋒網(wǎng):未來(lái)是否會(huì)有更多手機(jī)搭載四枚或更多的前攝像頭,以支持這類功能?
廖春元:多鏡頭手機(jī)是趨勢(shì),也是應(yīng)對(duì)用戶對(duì)3D輸入、輸出的要求。
印奇:硬件永遠(yuǎn)是軟件的延伸。如果亞馬遜這些視覺(jué)功能未來(lái)被大家廣泛使用,硬件改造難度并不高。
(題圖來(lái)源:The Hindu)
“硅谷鋒向標(biāo)”(guigufxb),雷鋒網(wǎng)硅谷新聞中心出品,關(guān)注硅谷動(dòng)向的科技人士不可不看的前沿資訊平臺(tái)。請(qǐng)通過(guò)微信掃描以下二維碼關(guān)注:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。