0
本文作者: 汪思穎 | 2018-04-28 09:45 |
2018 年 2 月,云從科技正式在國(guó)內(nèi)發(fā)布「3D 結(jié)構(gòu)光人臉識(shí)別技術(shù)」,這是中國(guó)企業(yè)首次將結(jié)構(gòu)光技術(shù)應(yīng)用在人臉識(shí)別系統(tǒng)上,相較以往的 2D 人臉識(shí)別及以紅外活體檢測(cè)技術(shù),在精確度、響應(yīng)速度等方面取得革命性突破。
近日,云從科技又在跨鏡追蹤技術(shù)(Person Re-Identification,ReID)上取得重大進(jìn)展,他們同時(shí)在 Market-1501,CUHK03,DukeMTMC-reID 三個(gè)數(shù)據(jù)集上刷新世界記錄。ReID 是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷圖像或者視頻序列中是否存在特定行人,無(wú)需人臉,根據(jù)穿著、體態(tài)、發(fā)型就能識(shí)人。
圖:ReID 行人識(shí)別技術(shù)
云從科技近期在 AI 科技評(píng)論推出的數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」上表現(xiàn)活躍,針對(duì)他們的這兩大突破,雷鋒網(wǎng) AI 研習(xí)社對(duì)云從科技研究院副院長(zhǎng)周翔進(jìn)行了一次專(zhuān)訪,了解到云從研究院的工作、云從技術(shù)上的創(chuàng)新及目前的研究重點(diǎn)。
早在云從科技成立之前,周翔就在重慶中科院跟隨周曦博士(云從創(chuàng)始人)從事人臉識(shí)別研究。后來(lái),周曦博士從中科院辭職成立云從,周翔也作為初創(chuàng)員工加入。
周翔目前擔(dān)任云從科技研究院副院長(zhǎng),主要負(fù)責(zé)三個(gè)方向:數(shù)據(jù)的收集與處理、技術(shù)研究、POC 測(cè)試。
以下為采訪原文,雷鋒網(wǎng) AI 研習(xí)社做了不改變?cè)獾木庉嬚怼?/p>
云從研究院
問(wèn):云從科技研究院在公司里處于什么樣的戰(zhàn)略地位?目前研究院主要進(jìn)行的工作有哪些?
周翔:云從所有核心技術(shù)都來(lái)自云從研究院,目前,研究院處于云從戰(zhàn)略最高點(diǎn)。研究院的工作圍繞三個(gè)方向展開(kāi):
一是對(duì)前沿算法的深入研究、自主創(chuàng)新。我們會(huì)緊跟當(dāng)前世界上最前沿的計(jì)算機(jī)視覺(jué)技術(shù)和人工智能技術(shù),也會(huì)推陳出新,研究新的人工智能視覺(jué)算法。
二是針對(duì)業(yè)內(nèi)已有的算法進(jìn)行深入研究。比如我們剛剛發(fā)布的「3D 結(jié)構(gòu)光人臉識(shí)別技術(shù)」,跨鏡追蹤技術(shù)(ReID)。此外,還有車(chē)輛、人群密度、交通行為、擁堵、醫(yī)療影像等等,只要與計(jì)算機(jī)視覺(jué)有關(guān),我們都會(huì)或多或少進(jìn)行布局。
三是將算法產(chǎn)品化。我們需要對(duì)這些算法進(jìn)行封裝,做產(chǎn)品級(jí)別的 SDK 和引擎。
問(wèn):云從與中科院、上海交大共建兩個(gè)聯(lián)合實(shí)驗(yàn)室,這兩個(gè)聯(lián)合實(shí)驗(yàn)室目前主要進(jìn)行哪些方面的研究?
周翔: 這兩個(gè)聯(lián)合實(shí)驗(yàn)室側(cè)重于計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿算法研究。云從會(huì)將前沿領(lǐng)域的研究放到高校團(tuán)隊(duì),讓學(xué)生與研究人員一起,做一些預(yù)研以及算法的基礎(chǔ)研究。
此外,云從創(chuàng)始人周曦是這兩所高校的博士生導(dǎo)師,他也會(huì)對(duì)學(xué)生進(jìn)行論文指導(dǎo),推薦他們參加頂會(huì)。
問(wèn):云從科技于 2015 年成立,這 3 年來(lái),你們?cè)谟?jì)算機(jī)視覺(jué)領(lǐng)域取得了哪些具有代表性的技術(shù)突破?
周翔:云從成立之前,我們?cè)谥锌圃旱募夹g(shù)就已經(jīng)比較領(lǐng)先。2015 年,我們?cè)?FDDB(Face Detection Data Set and Benchmark) 和 LFW(Labeled Faces in the Wild Home) 上刷到前三之后,覺(jué)得已經(jīng)很好地展示了學(xué)術(shù)實(shí)力,就開(kāi)始專(zhuān)心打磨產(chǎn)品。公司成立初期,我們更多看重產(chǎn)品落地。
當(dāng)然,我們也一直在做前沿研究,今年二月,我們發(fā)布結(jié)構(gòu)光 3D 人臉識(shí)別技術(shù),最近,我們?cè)?ReID(跨境追蹤技術(shù))上又一次刷榜。
隨著公司的發(fā)展,隊(duì)伍越來(lái)越壯大,我們可能會(huì)有新的定位,也會(huì)去發(fā)表論文,宣傳技術(shù)上的突破。當(dāng)然,我們還需要靜下心來(lái),踏踏實(shí)實(shí)將技術(shù)落地,只有這樣,客戶才會(huì)認(rèn)可我們。
問(wèn):接下來(lái)云從研究院主要會(huì)攻克哪些方面的難題?
周翔:首先做好計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)技術(shù)研究,比如對(duì)人臉、車(chē)輛、行人的檢測(cè)。
之后,我們會(huì)投入更多時(shí)間,去從人的角度分析構(gòu)建深度神經(jīng)網(wǎng)絡(luò),讓深度學(xué)習(xí)具有可解釋性。對(duì)深度學(xué)習(xí)有所了解的人都知道,它是一個(gè)「黑匣子」,雖然很多時(shí)候遠(yuǎn)勝傳統(tǒng)算法,但缺乏可解釋性。我們研究人工智能,應(yīng)該要讓計(jì)算機(jī)能夠像人類(lèi)一樣去思考和識(shí)別,具備自己的邏輯判斷,并且我們?nèi)祟?lèi)可以理解他們的思考。
問(wèn):你們近日在 Market-1501 上的首位命中率(Rank-1 Accuracy)達(dá)到 96.6%,刷新 ReID 榜單,這一數(shù)字是否還存在很大提升空間?與人臉識(shí)別相比呢?
周翔:提升空間肯定存在,但是對(duì)行人識(shí)別的研究比人臉識(shí)別更難。
第一,人臉的五官、臉型比較固定,不可能發(fā)生特別大的變化。行人不一樣,大家在走路、打球、跑步時(shí)的姿態(tài)千變?nèi)f化,伴隨彎腰、后仰等各種動(dòng)作,沒(méi)辦法很好地約束。
第二,我們還要根據(jù)體態(tài)、穿著來(lái)判斷行人。如果很多人穿著同樣的衣服,識(shí)別難度將更大。我們主要的判斷依據(jù)就是服飾、配飾、體型、發(fā)型等特點(diǎn)。如果兩個(gè)人的服飾、發(fā)型等類(lèi)似,這將很難辨識(shí)。
問(wèn):為了加深行人辨識(shí)的精準(zhǔn)度,主要用到的核心技術(shù)有哪些?
周翔:在行人識(shí)別上,我們創(chuàng)新性地提出全局+局部多粒度的識(shí)別理論。我們能通過(guò)人的形態(tài)、服裝等去做整體判斷,然后再通過(guò)一些細(xì)節(jié),比如衣物商標(biāo)、挎包類(lèi)型、服飾特征去判斷,即聚合同一個(gè)人在不同情況下的照片。
云從大腦
問(wèn):你們?cè)岬接?xùn)練人臉識(shí)別時(shí)的網(wǎng)絡(luò)架構(gòu),包括結(jié)構(gòu)化+非結(jié)構(gòu)化的數(shù)據(jù)、雙層異構(gòu)深度神經(jīng)網(wǎng)絡(luò)、三層金字塔式的遷移學(xué)習(xí),這與云從大腦有什么關(guān)聯(lián)?
周翔:這是云從大腦其中一個(gè)最基礎(chǔ)的識(shí)別認(rèn)知模型。
問(wèn):在云從大腦構(gòu)建的過(guò)程中,主要的技術(shù)難點(diǎn)有哪些?
周翔:最初構(gòu)建云從大腦時(shí),還是存在一定難度。開(kāi)源算法有很多,但我們需要研制出支持大類(lèi)別分布式訓(xùn)練的算法。
人的類(lèi)別是無(wú)窮的,以中國(guó)人來(lái)舉例,就有十幾億的類(lèi)別,這需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。在算力一定的情況下,如何讓效率更高;如果模型太深,如何去做加速,這些難點(diǎn)需要一個(gè)個(gè)突破。
問(wèn):目前一直在進(jìn)行云從大腦的優(yōu)化與改進(jìn)嗎?
周翔:是的,目前云從大腦只有人臉識(shí)別功能,后續(xù)我們會(huì)加入行人識(shí)別,之后會(huì)慢慢擴(kuò)充,加入車(chē)輛、人群等,讓它的應(yīng)用的領(lǐng)域更加廣泛。最后,我們還考慮將語(yǔ)音、文字等的識(shí)別全部構(gòu)建到云從大腦上,讓這個(gè)大腦就像人腦一樣,既能看懂圖像,還得讀懂文字,還能聽(tīng)到聲音,理解語(yǔ)意。這是我們的最終目標(biāo)。
問(wèn):想要把行人識(shí)別等其他功能融合進(jìn)云從大腦,需要解決哪些技術(shù)上的難點(diǎn)?
周翔:主要有以下幾點(diǎn):
第一,將所有算法融合到一起,變成一個(gè)超級(jí)大腦進(jìn)行統(tǒng)一分析,輸出有效信息。
我們常提到谷歌的 AlphaGo,它只會(huì)下圍棋,同樣,我們的網(wǎng)絡(luò)有些分析人臉,有些分析行人,有些分析車(chē)輛,如何將算法以及分析結(jié)果融合,變成一個(gè)整體,這是一個(gè)挑戰(zhàn)。
第二,海量的數(shù)據(jù)。
當(dāng)數(shù)據(jù)越來(lái)越多,如何對(duì)這些海量數(shù)據(jù)進(jìn)行有效分析;哪些數(shù)據(jù)是無(wú)用數(shù)據(jù),如何高效去除這些無(wú)用數(shù)據(jù)。
第三,算力。
如何通過(guò)硬件的異構(gòu)處理,充分提高算力和速度,降低能耗。
問(wèn):中科院李子青教授此前在雷鋒網(wǎng)安防峰會(huì)上提到,他們針對(duì)安防數(shù)據(jù)使用半監(jiān)督自主學(xué)習(xí),這是一個(gè)技術(shù)亮點(diǎn),效果好過(guò)監(jiān)督學(xué)習(xí)很多倍。你們?cè)谟?xùn)練 AI 的時(shí)候,使用的是遷移學(xué)習(xí)。對(duì)比起來(lái),半監(jiān)督自主學(xué)習(xí)和遷移學(xué)習(xí)在大規(guī)模人臉識(shí)別的場(chǎng)景下,差異點(diǎn)在哪里?
周翔:遷移學(xué)習(xí)是在一定的數(shù)據(jù)基礎(chǔ)上去做知識(shí)的遷移,我們?cè)谧畹讓右灿玫奖O(jiān)督學(xué)習(xí),此外,或多或少會(huì)用一些半監(jiān)督或非監(jiān)督的學(xué)習(xí)方法。李子青教授團(tuán)隊(duì)可能在半監(jiān)督學(xué)習(xí)算法里做了更多的改進(jìn),把它變成一個(gè)亮點(diǎn),使這一算法的效率更高,效果更好。
其實(shí)每家公司在許多環(huán)節(jié)中或多或少都會(huì)有一些創(chuàng)新,大家的算法都會(huì)有各自的特點(diǎn),用哪種算法并不是那么重要。
另外,方法的使用也與數(shù)據(jù)有關(guān)。前面提到我們有超大規(guī)模結(jié)構(gòu)化數(shù)據(jù),利用這種數(shù)據(jù),我們能很好地訓(xùn)練底層人臉識(shí)別模型。假設(shè)現(xiàn)在我們沒(méi)有這種數(shù)據(jù),只有互聯(lián)網(wǎng)上的或是通過(guò)其它項(xiàng)目得到的非結(jié)構(gòu)化數(shù)據(jù),那就沒(méi)辦法很好地用監(jiān)督學(xué)習(xí),只能利用半監(jiān)督或非監(jiān)督學(xué)習(xí)的方法了。
走向行業(yè)
問(wèn):云從剛開(kāi)始成立的時(shí)候,先在金融領(lǐng)域占據(jù)大量市場(chǎng),后來(lái)又布局安防領(lǐng)域。在將產(chǎn)品應(yīng)用于這兩個(gè)行業(yè)的時(shí)候,對(duì)技術(shù)的要求會(huì)存在哪些差異?
周翔:差異非常大。
金融行業(yè)更看重的是安全,算法必須達(dá)到極致。銀行對(duì)人臉識(shí)別算法的誤識(shí)率要求非常高,比如說(shuō)百萬(wàn)分之一的誤識(shí)率,直觀解釋?zhuān)?100 萬(wàn)個(gè)人拿著別人的身份證去取錢(qián),只有一個(gè)人能夠騙過(guò)算法。
此外,銀行場(chǎng)景下獲取到的人臉圖片質(zhì)量要比安防行業(yè)好。
但公安就不一樣了,他們對(duì)人臉識(shí)別準(zhǔn)確率的要求沒(méi)有銀行高,更看重的是算法的綜合運(yùn)用,即平臺(tái)能力、系統(tǒng)能力。
公安會(huì)看重視頻處理的速度,需要能實(shí)時(shí)顯示。舉個(gè)簡(jiǎn)單的例子,比如嫌疑犯從某一地點(diǎn)經(jīng)過(guò),系統(tǒng)需要 30 秒才能將他識(shí)別出來(lái),那就不行,公安會(huì)說(shuō),再不快一點(diǎn)確認(rèn),嫌疑犯就跑了。
另外,只有人臉識(shí)別行不通,公安更看重的是能不能跟行人識(shí)別相結(jié)合,識(shí)別出來(lái)之后,能不能去做聯(lián)動(dòng),如果在其它視頻里也發(fā)現(xiàn)這個(gè)人,是否能畫(huà)出他的行動(dòng)軌跡,把他的出現(xiàn)地點(diǎn)、頻次等信息都反饋出來(lái)。
問(wèn):您前面也提到云從的技術(shù)很早就已經(jīng)很成熟,后來(lái)主要是在做落地。你們?cè)趯⑺惴涞氐倪^(guò)程中,面臨哪些比較大的挑戰(zhàn)?
周翔:要將算法落地做成一款產(chǎn)品,需要考慮的因素非常多,也面臨著很多挑戰(zhàn)。算法好不代表產(chǎn)品好,產(chǎn)品好也不代表客戶一定會(huì)用。
直觀一點(diǎn)解釋?zhuān)龀僧a(chǎn)品,要考慮外觀、使用體驗(yàn)、系統(tǒng)的流暢性、售后,即如何把產(chǎn)品包裝成客戶認(rèn)可的解決方案。
我們是 2B 公司,客戶的需求千變?nèi)f化,如何快速定制、快速解決客戶的不同需求,這都是需要考慮的。
另外,將產(chǎn)品推向市場(chǎng)時(shí),還需要考慮公司是否具備資質(zhì),是否避開(kāi)了其它公司的專(zhuān)利,是否有商務(wù)上的成功案例。
問(wèn):很多人都會(huì)將云從、依圖、曠視、商湯這 4 家以 CV 為核心的公司來(lái)比較,您如何看待這三家友商?
周翔:這幾家公司在算法層面做的都還不錯(cuò),我也非常欣賞這幾家公司。雖然我們各家也會(huì)在一些領(lǐng)域上進(jìn)行 PK,但每家公司的算法特點(diǎn)會(huì)有一定區(qū)別。
商湯招募了非常多的博士在內(nèi)的研究人員,研究領(lǐng)域涉及多個(gè)方面,比如自動(dòng)駕駛、商超等領(lǐng)域,他們想賦能百業(yè),把人工智能應(yīng)用到各個(gè)行業(yè)。
曠視最近剛剛收購(gòu)艾瑞思機(jī)器人(Ares robot),它們可能更多地想在機(jī)器人領(lǐng)域進(jìn)行擴(kuò)展。他們?cè)诨ヂ?lián)網(wǎng)金融上做得非常出色,在這里比較有優(yōu)勢(shì)。
依圖最早是做車(chē)輛識(shí)別以及安防,他們的安防算法做得很棒,得到公安的高度認(rèn)可。目前他們也在做醫(yī)療,我們也希望他們?cè)卺t(yī)療上能做出非常好的成績(jī)。
云從跟這幾家公司也有一些區(qū)別,云從是國(guó)家產(chǎn)業(yè)隊(duì),我們拿了一些國(guó)家級(jí)別的項(xiàng)目,更偏重頂層設(shè)計(jì)。
我們目前接觸最多的是銀行、公安,我們會(huì)從四大行開(kāi)始滲透,先把金融做得更好,然后在金融領(lǐng)域做一些其它的 AI 業(yè)務(wù),包括風(fēng)控、智慧銀行等。
對(duì)于安防,我們會(huì)跟公安部合作,先去設(shè)計(jì)一些標(biāo)準(zhǔn),然后做出一些公安高度認(rèn)可的產(chǎn)品和系統(tǒng)。
相關(guān)文章:
國(guó)產(chǎn)再突破 云從科技首發(fā)3D結(jié)構(gòu)光人臉識(shí)別技術(shù)
96.6% 云從科技跨鏡追蹤(ReID)技術(shù)刷新三項(xiàng)世界紀(jì)錄
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。