0
本文作者: 谷磊 | 2017-05-18 16:21 |
凱文·凱利曾說,未來20年最偉大的事情可能還沒有出現(xiàn),但可以預(yù)測的是,人工智能將是未來20年內(nèi)最重要的技術(shù)趨勢,創(chuàng)業(yè)企業(yè)的方向應(yīng)該很明確,就是將人工智能應(yīng)用于某個(gè)領(lǐng)域。
近兩年,人工智能創(chuàng)業(yè)公司如雨后春筍一般不斷涌現(xiàn),但是大部分的企業(yè)是關(guān)注于如何讓自家的產(chǎn)品更加智能,但有這么一家公司卻立下 flag,要做商品識(shí)別領(lǐng)域的人工智能賦能者,讓別人的產(chǎn)品更加智能。
Matt Scott
在2017年北京GMIC大會(huì)期間,碼隆科技聯(lián)合創(chuàng)始人兼 CTO 碼特(Matt Scott)告訴雷鋒網(wǎng),和其他人工智能公司不同,碼隆科技是將商品識(shí)別方面的技術(shù)開放給其他企業(yè),使得他們能夠運(yùn)用這些技術(shù)去搭建屬于自己的商品識(shí)別引擎。
而碼特提及的人工智能技術(shù),碼隆科技已將其搭建成一個(gè)人工智能平臺(tái)—ProductAI。
商品識(shí)別
在弄清楚 ProductAI 平臺(tái)之前,需要先介紹一下商品識(shí)別的概念。碼特告訴雷鋒網(wǎng),大家都熟悉人臉識(shí)別,通過人工智能分類技術(shù)可以提取出如性別、年齡、種族等信息,那么商品識(shí)別也類似,拿時(shí)尚領(lǐng)域來說,通過人工智能技術(shù)可以提取出服飾的材質(zhì)、色彩、風(fēng)格等特征。
但是區(qū)別之處在于,商品里既包含酒瓶、車輛、家具這樣的剛性物體,也包含服飾面料等易折疊的柔性物體。除了易褶皺這樣的屬性,柔性物體上的面料紋路和圖案也不盡相同,所以相對(duì)介于剛性和柔性之間的人臉,柔性物體的識(shí)別難度更大,而這個(gè)也正是碼隆科技投入大量精力去鉆研并且擅長的領(lǐng)域,碼特說。
ProductAI 的登錄界面
ProductAI
碼特告訴雷鋒網(wǎng),商品識(shí)別技術(shù)的背后需要有海量商品數(shù)據(jù)的支持,通過收集針對(duì)某些垂直行業(yè)的商品圖像數(shù)據(jù),運(yùn)用適用于這個(gè)行業(yè)的算法去搭建這些垂直領(lǐng)域的模型,由此產(chǎn)生針對(duì)垂直領(lǐng)域的商品識(shí)別結(jié)果,如:分類(Classification)、檢測(Detection)、分割(Segmentation)、檢索(Retrieval)等等。
企業(yè)能夠運(yùn)用這些功能去搭建他們自己的商品識(shí)別服務(wù),而碼隆則將上述提供的服務(wù)進(jìn)行整合,搭建成一個(gè)人工智能平臺(tái)—ProductAI。也就是說,ProductAI是企業(yè)運(yùn)用人工智能商品識(shí)別服務(wù)的入口。
ProductAI的核心技術(shù)服務(wù)
據(jù)碼特介紹,針對(duì)垂直領(lǐng)域,ProductAI有兩大核心技術(shù)服務(wù):
垂直領(lǐng)域圖像檢索(Vertical AI Image Retrieval)
垂直領(lǐng)域自動(dòng)標(biāo)注(Vertical Auto-Tagging)
垂直領(lǐng)域商品檢索服務(wù)
在圖像檢索方面,除了上文中提到的碼隆擅長的時(shí)尚、紡織面料等領(lǐng)域,碼特告訴雷鋒網(wǎng),現(xiàn)在又新增了在車輛、酒類、家具等垂直領(lǐng)域的模型,未來還將持續(xù)擴(kuò)充人工智能在商品識(shí)別的垂直場景。
在擴(kuò)充了使用場景后,問題也隨之而來:這個(gè)橫跨多領(lǐng)域的智能識(shí)別系統(tǒng),如何能保證其既能實(shí)時(shí)處理上億數(shù)據(jù), 又能處理不同類別的調(diào)用請求? 還能保證高性價(jià)比?對(duì)此,碼特分享了碼隆的做法:
第一點(diǎn):我們首次提出“場景選擇” (Scenario Selection)的概念,用戶可在圖像檢索服務(wù)中,選擇所屬行業(yè)的場景服務(wù),然后運(yùn)用到自己的產(chǎn)品中,以獲得最好的性能。提到圖像檢索服務(wù),人們會(huì)想到谷歌和百度的以圖搜圖功能,但是他們大多使用的是通用模型,相較于我們使用垂直領(lǐng)域?qū)S谜Z言(Domain Specific Language)進(jìn)行搜索引擎搭建,通用模型的商品檢索精確度往往差強(qiáng)人意。
第二點(diǎn):算法。除了擁有億級(jí)以上的垂直行業(yè)圖像數(shù)據(jù)以外,在每個(gè)垂直行業(yè)的基礎(chǔ)上,我們使用了多任務(wù)的深度度量學(xué)習(xí)(Deep Metric Learning)來訓(xùn)練端到端的圖像檢索模型,這使得我們相較于其他人工智能公司,在商品識(shí)別方面,特別是難度最大的柔性商品識(shí)別領(lǐng)域,能夠獲得更加精確的檢索結(jié)果。
關(guān)于精確度的考量,可以說碼隆現(xiàn)已在業(yè)內(nèi)遙遙領(lǐng)先,而且我們有信心與 CVPR, ICCV, ECCV 等國際頂尖論文的公開基準(zhǔn)點(diǎn)(Public Benchmarks)進(jìn)行比較。
第三點(diǎn):速度。我們花費(fèi)了非常多的精力將二值神經(jīng)網(wǎng)絡(luò)和分布計(jì)算的技術(shù)運(yùn)用在深度學(xué)習(xí)網(wǎng)絡(luò)當(dāng)中,以實(shí)現(xiàn)大規(guī)模且高效率的查詢檢索。
第四點(diǎn):費(fèi)用。我們一直在努力降低服務(wù)成本,以便讓更多企業(yè)能夠受益于這項(xiàng)服務(wù)。
垂直領(lǐng)域的商品圖像自動(dòng)標(biāo)注服務(wù)
如上圖所示,除了商品檢索之外,ProductAI 的圖像識(shí)別技術(shù)還能對(duì)圖片進(jìn)行實(shí)體檢測,定位圖中實(shí)體,同時(shí)提供可定制的標(biāo)注信息,碼特告訴雷鋒網(wǎng)。
說起圖像標(biāo)注,碼特說,讓我們來聊一個(gè)當(dāng)下比較熱的話題:如何提升訓(xùn)練數(shù)據(jù)的效率?
對(duì)于人工智能公司而言,想要獲取到海量的有標(biāo)注數(shù)據(jù)難度是比較大的,我們內(nèi)部有專門的團(tuán)隊(duì)負(fù)責(zé)這部分的信息收集,從而提供數(shù)以百萬計(jì)的標(biāo)注數(shù)據(jù),目前做得很不錯(cuò)。
這個(gè)就是業(yè)界普遍在做的監(jiān)督學(xué)習(xí),但我們同時(shí)也正在往半監(jiān)督學(xué)習(xí)(Semi-supervise Learning) 的階段前進(jìn),生成對(duì)抗網(wǎng)絡(luò)GAN(Generative Adversarial Networks)就是一種很好的方法。
有了生成對(duì)抗網(wǎng)絡(luò),我們就可以不需要像過去那么多高質(zhì)量的標(biāo)簽數(shù)據(jù),而是通過一些技術(shù)去獲取這些數(shù)據(jù)。在以一定數(shù)量的標(biāo)注數(shù)據(jù)作為訓(xùn)練基礎(chǔ)的情況下,將這些技術(shù)應(yīng)用于訓(xùn)練分割、檢測、分類、圖像檢索這些任務(wù),從而減輕訓(xùn)練海量標(biāo)注數(shù)據(jù)的負(fù)擔(dān)。
以圖搜圖
1、布料搜索
顧名思義,通過在 ProductAI 平臺(tái)上建立的 “以圖搜布” 面料商品圖像搜索引擎,人們只需要對(duì)著想要購買的面料拍攝一張照片,系統(tǒng)會(huì)先識(shí)別出面料的圖形與花色,然后生成相應(yīng)的購買鏈接。碼特說道,這個(gè)案例是 ProductAI 的第一個(gè)應(yīng)用,目前中國前 10 大紡織面料企業(yè),有 7 家已經(jīng)接入了這個(gè)服務(wù)。
圖像搜索引擎有非常廣闊的行業(yè)應(yīng)用空間,尤其針對(duì)一些難以用語言描述的場景,比如布料的花紋和質(zhì)地,用視覺方式檢索就會(huì)很直接。碼特補(bǔ)充道。
2、時(shí)尚商品搜索
只要將服裝網(wǎng)站上的喜歡的款式截圖,復(fù)制粘貼到基于 ProductAI 的圖像搜索引擎上,便可以迅速得到服裝的批發(fā)購買鏈接。即使服裝商品圖片經(jīng)過PS、翻轉(zhuǎn)、變形,即使有些相同衣服的模特不同,也能夠搜索出來。同時(shí),同樣款式的衣服可以一起被搜索出來,供消費(fèi)者進(jìn)行比價(jià)挑選。
時(shí)尚分析與趨勢預(yù)測
作為面料紡織行業(yè)權(quán)威機(jī)構(gòu),中國紡織信息中心需要預(yù)測流行色等未來的趨勢,再把預(yù)測信息和整個(gè)產(chǎn)業(yè)進(jìn)行分享,起到引領(lǐng)風(fēng)潮的作用。通過自動(dòng)抽取海量T臺(tái)圖像信息中的主體色彩,ProductAI 能夠在短時(shí)間內(nèi)完成顏色分析,總結(jié)出整體趨勢,減少了人力觀測成本,碼特說。
出版物識(shí)別
ProductAI 還可以提供出版物識(shí)別技術(shù),一個(gè)典型的例子是《光明日報(bào)》在嵌入人工智能識(shí)別技術(shù)后,只要對(duì)著報(bào)紙拍一張照片,便可實(shí)時(shí)識(shí)別出與之相關(guān)聯(lián)的全媒體信息,如視頻等,搭建起了虛擬與現(xiàn)實(shí)的橋梁。
2014年7月,黃鼎隆與曾經(jīng)微軟的同事 Matt Scott(碼特) 聯(lián)合創(chuàng)立了碼隆科技,可以看出公司的名稱就是兩位創(chuàng)業(yè)者名字的結(jié)合。
2015年1月,碼隆科技入選微軟創(chuàng)投加速器。同時(shí)推出了面向C端的以圖搜圖的移動(dòng)應(yīng)用StyleAI,希望用圖像識(shí)別結(jié)合深度學(xué)習(xí)來破解時(shí)尚密碼。
2015年3月,達(dá)晨創(chuàng)投和遠(yuǎn)鏡創(chuàng)投共同為碼隆科技注入1200萬元天使投資。
2016年7月,碼隆科技完成了6200萬人民幣的A輪融資。
2016年10月,碼隆科技正式發(fā)布人工智能視覺應(yīng)用平臺(tái)—ProductAI 。
作為一個(gè)在中國創(chuàng)業(yè)的美國人,碼特?fù)碛?40 多項(xiàng)中美專利、發(fā)表了 13 篇國際頂級(jí)論文,有著十多年的開發(fā)經(jīng)驗(yàn)和微軟亞洲研究院高級(jí)研發(fā)主管的工作經(jīng)歷,所以談及中美在人工智能方面學(xué)術(shù)與商業(yè)化的話題,他感觸頗深:
就學(xué)術(shù)研究而言,根據(jù)2016年美國白宮發(fā)表的人工智能戰(zhàn)略報(bào)告,自2014年起,中國在人工智能領(lǐng)域所發(fā)表的論文與期刊數(shù)量,及被引用文章數(shù)皆已位居世界之首。中國近幾年在人工智能領(lǐng)域的研究發(fā)展已超越美國,成為世界領(lǐng)先的代表。
商業(yè)化方面,因?yàn)橹袊?、人更多、企業(yè)也更多,同時(shí)中國專注于某些美國不會(huì)重點(diǎn)關(guān)注的領(lǐng)域,如:制造業(yè)、硬件等。在中國,人工智能更有機(jī)會(huì)在垂直行業(yè)中發(fā)揮更大的影響力。當(dāng)人工智能遇上攝像頭這類的硬件產(chǎn)品,會(huì)發(fā)揮巨大的價(jià)值。而當(dāng)人工智能助力制造業(yè)時(shí),對(duì)全世界都能夠帶來更大的影響力。舉例來說在中國深圳,這個(gè)制造業(yè)之鄉(xiāng),機(jī)器人產(chǎn)業(yè)最為繁榮的中國城市,現(xiàn)階段達(dá)到如此巨大規(guī)模的發(fā)展,放眼世界,只有在中國才可能發(fā)生。
當(dāng)雷鋒網(wǎng)問及碼隆下一步的計(jì)劃時(shí),碼特的回答簡潔而有力,我們希望能夠在垂直領(lǐng)域做得更加深入,并進(jìn)軍國際市場。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。