0
本文作者: 汪思穎 | 2018-04-28 09:45 |
2018 年 2 月,云從科技正式在國內(nèi)發(fā)布「3D 結(jié)構(gòu)光人臉識別技術(shù)」,這是中國企業(yè)首次將結(jié)構(gòu)光技術(shù)應(yīng)用在人臉識別系統(tǒng)上,相較以往的 2D 人臉識別及以紅外活體檢測技術(shù),在精確度、響應(yīng)速度等方面取得革命性突破。
近日,云從科技又在跨鏡追蹤技術(shù)(Person Re-Identification,ReID)上取得重大進展,他們同時在 Market-1501,CUHK03,DukeMTMC-reID 三個數(shù)據(jù)集上刷新世界記錄。ReID 是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人,無需人臉,根據(jù)穿著、體態(tài)、發(fā)型就能識人。
圖:ReID 行人識別技術(shù)
云從科技近期在 AI 科技評論推出的數(shù)據(jù)庫項目「AI 影響因子」上表現(xiàn)活躍,針對他們的這兩大突破,雷鋒網(wǎng) AI 研習(xí)社對云從科技研究院副院長周翔進行了一次專訪,了解到云從研究院的工作、云從技術(shù)上的創(chuàng)新及目前的研究重點。
早在云從科技成立之前,周翔就在重慶中科院跟隨周曦博士(云從創(chuàng)始人)從事人臉識別研究。后來,周曦博士從中科院辭職成立云從,周翔也作為初創(chuàng)員工加入。
周翔目前擔(dān)任云從科技研究院副院長,主要負責(zé)三個方向:數(shù)據(jù)的收集與處理、技術(shù)研究、POC 測試。
以下為采訪原文,雷鋒網(wǎng) AI 研習(xí)社做了不改變原意的編輯整理。
云從研究院
問:云從科技研究院在公司里處于什么樣的戰(zhàn)略地位?目前研究院主要進行的工作有哪些?
周翔:云從所有核心技術(shù)都來自云從研究院,目前,研究院處于云從戰(zhàn)略最高點。研究院的工作圍繞三個方向展開:
一是對前沿算法的深入研究、自主創(chuàng)新。我們會緊跟當(dāng)前世界上最前沿的計算機視覺技術(shù)和人工智能技術(shù),也會推陳出新,研究新的人工智能視覺算法。
二是針對業(yè)內(nèi)已有的算法進行深入研究。比如我們剛剛發(fā)布的「3D 結(jié)構(gòu)光人臉識別技術(shù)」,跨鏡追蹤技術(shù)(ReID)。此外,還有車輛、人群密度、交通行為、擁堵、醫(yī)療影像等等,只要與計算機視覺有關(guān),我們都會或多或少進行布局。
三是將算法產(chǎn)品化。我們需要對這些算法進行封裝,做產(chǎn)品級別的 SDK 和引擎。
問:云從與中科院、上海交大共建兩個聯(lián)合實驗室,這兩個聯(lián)合實驗室目前主要進行哪些方面的研究?
周翔: 這兩個聯(lián)合實驗室側(cè)重于計算機視覺領(lǐng)域的前沿算法研究。云從會將前沿領(lǐng)域的研究放到高校團隊,讓學(xué)生與研究人員一起,做一些預(yù)研以及算法的基礎(chǔ)研究。
此外,云從創(chuàng)始人周曦是這兩所高校的博士生導(dǎo)師,他也會對學(xué)生進行論文指導(dǎo),推薦他們參加頂會。
問:云從科技于 2015 年成立,這 3 年來,你們在計算機視覺領(lǐng)域取得了哪些具有代表性的技術(shù)突破?
周翔:云從成立之前,我們在中科院的技術(shù)就已經(jīng)比較領(lǐng)先。2015 年,我們在 FDDB(Face Detection Data Set and Benchmark) 和 LFW(Labeled Faces in the Wild Home) 上刷到前三之后,覺得已經(jīng)很好地展示了學(xué)術(shù)實力,就開始專心打磨產(chǎn)品。公司成立初期,我們更多看重產(chǎn)品落地。
當(dāng)然,我們也一直在做前沿研究,今年二月,我們發(fā)布結(jié)構(gòu)光 3D 人臉識別技術(shù),最近,我們在 ReID(跨境追蹤技術(shù))上又一次刷榜。
隨著公司的發(fā)展,隊伍越來越壯大,我們可能會有新的定位,也會去發(fā)表論文,宣傳技術(shù)上的突破。當(dāng)然,我們還需要靜下心來,踏踏實實將技術(shù)落地,只有這樣,客戶才會認可我們。
問:接下來云從研究院主要會攻克哪些方面的難題?
周翔:首先做好計算機視覺領(lǐng)域的基礎(chǔ)技術(shù)研究,比如對人臉、車輛、行人的檢測。
之后,我們會投入更多時間,去從人的角度分析構(gòu)建深度神經(jīng)網(wǎng)絡(luò),讓深度學(xué)習(xí)具有可解釋性。對深度學(xué)習(xí)有所了解的人都知道,它是一個「黑匣子」,雖然很多時候遠勝傳統(tǒng)算法,但缺乏可解釋性。我們研究人工智能,應(yīng)該要讓計算機能夠像人類一樣去思考和識別,具備自己的邏輯判斷,并且我們?nèi)祟惪梢岳斫馑麄兊乃伎肌?/p>
問:你們近日在 Market-1501 上的首位命中率(Rank-1 Accuracy)達到 96.6%,刷新 ReID 榜單,這一數(shù)字是否還存在很大提升空間?與人臉識別相比呢?
周翔:提升空間肯定存在,但是對行人識別的研究比人臉識別更難。
第一,人臉的五官、臉型比較固定,不可能發(fā)生特別大的變化。行人不一樣,大家在走路、打球、跑步時的姿態(tài)千變?nèi)f化,伴隨彎腰、后仰等各種動作,沒辦法很好地約束。
第二,我們還要根據(jù)體態(tài)、穿著來判斷行人。如果很多人穿著同樣的衣服,識別難度將更大。我們主要的判斷依據(jù)就是服飾、配飾、體型、發(fā)型等特點。如果兩個人的服飾、發(fā)型等類似,這將很難辨識。
問:為了加深行人辨識的精準(zhǔn)度,主要用到的核心技術(shù)有哪些?
周翔:在行人識別上,我們創(chuàng)新性地提出全局+局部多粒度的識別理論。我們能通過人的形態(tài)、服裝等去做整體判斷,然后再通過一些細節(jié),比如衣物商標(biāo)、挎包類型、服飾特征去判斷,即聚合同一個人在不同情況下的照片。
云從大腦
問:你們曾提到訓(xùn)練人臉識別時的網(wǎng)絡(luò)架構(gòu),包括結(jié)構(gòu)化+非結(jié)構(gòu)化的數(shù)據(jù)、雙層異構(gòu)深度神經(jīng)網(wǎng)絡(luò)、三層金字塔式的遷移學(xué)習(xí),這與云從大腦有什么關(guān)聯(lián)?
周翔:這是云從大腦其中一個最基礎(chǔ)的識別認知模型。
問:在云從大腦構(gòu)建的過程中,主要的技術(shù)難點有哪些?
周翔:最初構(gòu)建云從大腦時,還是存在一定難度。開源算法有很多,但我們需要研制出支持大類別分布式訓(xùn)練的算法。
人的類別是無窮的,以中國人來舉例,就有十幾億的類別,這需要大量數(shù)據(jù)進行訓(xùn)練。在算力一定的情況下,如何讓效率更高;如果模型太深,如何去做加速,這些難點需要一個個突破。
問:目前一直在進行云從大腦的優(yōu)化與改進嗎?
周翔:是的,目前云從大腦只有人臉識別功能,后續(xù)我們會加入行人識別,之后會慢慢擴充,加入車輛、人群等,讓它的應(yīng)用的領(lǐng)域更加廣泛。最后,我們還考慮將語音、文字等的識別全部構(gòu)建到云從大腦上,讓這個大腦就像人腦一樣,既能看懂圖像,還得讀懂文字,還能聽到聲音,理解語意。這是我們的最終目標(biāo)。
問:想要把行人識別等其他功能融合進云從大腦,需要解決哪些技術(shù)上的難點?
周翔:主要有以下幾點:
第一,將所有算法融合到一起,變成一個超級大腦進行統(tǒng)一分析,輸出有效信息。
我們常提到谷歌的 AlphaGo,它只會下圍棋,同樣,我們的網(wǎng)絡(luò)有些分析人臉,有些分析行人,有些分析車輛,如何將算法以及分析結(jié)果融合,變成一個整體,這是一個挑戰(zhàn)。
第二,海量的數(shù)據(jù)。
當(dāng)數(shù)據(jù)越來越多,如何對這些海量數(shù)據(jù)進行有效分析;哪些數(shù)據(jù)是無用數(shù)據(jù),如何高效去除這些無用數(shù)據(jù)。
第三,算力。
如何通過硬件的異構(gòu)處理,充分提高算力和速度,降低能耗。
問:中科院李子青教授此前在雷鋒網(wǎng)安防峰會上提到,他們針對安防數(shù)據(jù)使用半監(jiān)督自主學(xué)習(xí),這是一個技術(shù)亮點,效果好過監(jiān)督學(xué)習(xí)很多倍。你們在訓(xùn)練 AI 的時候,使用的是遷移學(xué)習(xí)。對比起來,半監(jiān)督自主學(xué)習(xí)和遷移學(xué)習(xí)在大規(guī)模人臉識別的場景下,差異點在哪里?
周翔:遷移學(xué)習(xí)是在一定的數(shù)據(jù)基礎(chǔ)上去做知識的遷移,我們在最底層也用到監(jiān)督學(xué)習(xí),此外,或多或少會用一些半監(jiān)督或非監(jiān)督的學(xué)習(xí)方法。李子青教授團隊可能在半監(jiān)督學(xué)習(xí)算法里做了更多的改進,把它變成一個亮點,使這一算法的效率更高,效果更好。
其實每家公司在許多環(huán)節(jié)中或多或少都會有一些創(chuàng)新,大家的算法都會有各自的特點,用哪種算法并不是那么重要。
另外,方法的使用也與數(shù)據(jù)有關(guān)。前面提到我們有超大規(guī)模結(jié)構(gòu)化數(shù)據(jù),利用這種數(shù)據(jù),我們能很好地訓(xùn)練底層人臉識別模型。假設(shè)現(xiàn)在我們沒有這種數(shù)據(jù),只有互聯(lián)網(wǎng)上的或是通過其它項目得到的非結(jié)構(gòu)化數(shù)據(jù),那就沒辦法很好地用監(jiān)督學(xué)習(xí),只能利用半監(jiān)督或非監(jiān)督學(xué)習(xí)的方法了。
走向行業(yè)
問:云從剛開始成立的時候,先在金融領(lǐng)域占據(jù)大量市場,后來又布局安防領(lǐng)域。在將產(chǎn)品應(yīng)用于這兩個行業(yè)的時候,對技術(shù)的要求會存在哪些差異?
周翔:差異非常大。
金融行業(yè)更看重的是安全,算法必須達到極致。銀行對人臉識別算法的誤識率要求非常高,比如說百萬分之一的誤識率,直觀解釋,即 100 萬個人拿著別人的身份證去取錢,只有一個人能夠騙過算法。
此外,銀行場景下獲取到的人臉圖片質(zhì)量要比安防行業(yè)好。
但公安就不一樣了,他們對人臉識別準(zhǔn)確率的要求沒有銀行高,更看重的是算法的綜合運用,即平臺能力、系統(tǒng)能力。
公安會看重視頻處理的速度,需要能實時顯示。舉個簡單的例子,比如嫌疑犯從某一地點經(jīng)過,系統(tǒng)需要 30 秒才能將他識別出來,那就不行,公安會說,再不快一點確認,嫌疑犯就跑了。
另外,只有人臉識別行不通,公安更看重的是能不能跟行人識別相結(jié)合,識別出來之后,能不能去做聯(lián)動,如果在其它視頻里也發(fā)現(xiàn)這個人,是否能畫出他的行動軌跡,把他的出現(xiàn)地點、頻次等信息都反饋出來。
問:您前面也提到云從的技術(shù)很早就已經(jīng)很成熟,后來主要是在做落地。你們在將算法落地的過程中,面臨哪些比較大的挑戰(zhàn)?
周翔:要將算法落地做成一款產(chǎn)品,需要考慮的因素非常多,也面臨著很多挑戰(zhàn)。算法好不代表產(chǎn)品好,產(chǎn)品好也不代表客戶一定會用。
直觀一點解釋,做成產(chǎn)品,要考慮外觀、使用體驗、系統(tǒng)的流暢性、售后,即如何把產(chǎn)品包裝成客戶認可的解決方案。
我們是 2B 公司,客戶的需求千變?nèi)f化,如何快速定制、快速解決客戶的不同需求,這都是需要考慮的。
另外,將產(chǎn)品推向市場時,還需要考慮公司是否具備資質(zhì),是否避開了其它公司的專利,是否有商務(wù)上的成功案例。
問:很多人都會將云從、依圖、曠視、商湯這 4 家以 CV 為核心的公司來比較,您如何看待這三家友商?
周翔:這幾家公司在算法層面做的都還不錯,我也非常欣賞這幾家公司。雖然我們各家也會在一些領(lǐng)域上進行 PK,但每家公司的算法特點會有一定區(qū)別。
商湯招募了非常多的博士在內(nèi)的研究人員,研究領(lǐng)域涉及多個方面,比如自動駕駛、商超等領(lǐng)域,他們想賦能百業(yè),把人工智能應(yīng)用到各個行業(yè)。
曠視最近剛剛收購艾瑞思機器人(Ares robot),它們可能更多地想在機器人領(lǐng)域進行擴展。他們在互聯(lián)網(wǎng)金融上做得非常出色,在這里比較有優(yōu)勢。
依圖最早是做車輛識別以及安防,他們的安防算法做得很棒,得到公安的高度認可。目前他們也在做醫(yī)療,我們也希望他們在醫(yī)療上能做出非常好的成績。
云從跟這幾家公司也有一些區(qū)別,云從是國家產(chǎn)業(yè)隊,我們拿了一些國家級別的項目,更偏重頂層設(shè)計。
我們目前接觸最多的是銀行、公安,我們會從四大行開始滲透,先把金融做得更好,然后在金融領(lǐng)域做一些其它的 AI 業(yè)務(wù),包括風(fēng)控、智慧銀行等。
對于安防,我們會跟公安部合作,先去設(shè)計一些標(biāo)準(zhǔn),然后做出一些公安高度認可的產(chǎn)品和系統(tǒng)。
相關(guān)文章:
國產(chǎn)再突破 云從科技首發(fā)3D結(jié)構(gòu)光人臉識別技術(shù)
96.6% 云從科技跨鏡追蹤(ReID)技術(shù)刷新三項世界紀錄
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。