云從周翔：三年打磨，云從如何成為計(jì)算機(jī)視覺(jué)國(guó)家隊(duì)

本文作者：汪思穎

2018-04-28 09:45

導(dǎo)語(yǔ)：周翔目前擔(dān)任云從科技研究院副院長(zhǎng)，主要負(fù)責(zé)三個(gè)方向：數(shù)據(jù)的收集與處理、技術(shù)研究、POC 測(cè)試。

云從科技

AI影響因子

活動(dòng)

企業(yè)：云從科技

操作：專(zhuān)訪

事項(xiàng)：專(zhuān)訪云從科技研究院副院長(zhǎng)周翔

2018 年 2 月，云從科技正式在國(guó)內(nèi)發(fā)布「3D 結(jié)構(gòu)光人臉識(shí)別技術(shù)」，這是中國(guó)企業(yè)首次將結(jié)構(gòu)光技術(shù)應(yīng)用在人臉識(shí)別系統(tǒng)上，相較以往的 2D 人臉識(shí)別及以紅外活體檢測(cè)技術(shù)，在精確度、響應(yīng)速度等方面取得革命性突破。

近日，云從科技又在跨鏡追蹤技術(shù)（Person Re-Identification，ReID）上取得重大進(jìn)展，他們同時(shí)在 Market-1501，CUHK03，DukeMTMC-reID 三個(gè)數(shù)據(jù)集上刷新世界記錄。ReID 是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷圖像或者視頻序列中是否存在特定行人，無(wú)需人臉，根據(jù)穿著、體態(tài)、發(fā)型就能識(shí)人。

云從周翔：三年打磨，云從如何成為計(jì)算機(jī)視覺(jué)國(guó)家隊(duì)

圖：ReID 行人識(shí)別技術(shù)

云從科技近期在 AI 科技評(píng)論推出的數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」上表現(xiàn)活躍，針對(duì)他們的這兩大突破，雷鋒網(wǎng) AI 研習(xí)社對(duì)云從科技研究院副院長(zhǎng)周翔進(jìn)行了一次專(zhuān)訪，了解到云從研究院的工作、云從技術(shù)上的創(chuàng)新及目前的研究重點(diǎn)。

早在云從科技成立之前，周翔就在重慶中科院跟隨周曦博士（云從創(chuàng)始人）從事人臉識(shí)別研究。后來(lái)，周曦博士從中科院辭職成立云從，周翔也作為初創(chuàng)員工加入。

周翔目前擔(dān)任云從科技研究院副院長(zhǎng)，主要負(fù)責(zé)三個(gè)方向：數(shù)據(jù)的收集與處理、技術(shù)研究、POC 測(cè)試。

以下為采訪原文，雷鋒網(wǎng) AI 研習(xí)社做了不改變?cè)獾木庉嬚怼?/p>

云從研究院

問(wèn)：云從科技研究院在公司里處于什么樣的戰(zhàn)略地位？目前研究院主要進(jìn)行的工作有哪些？

周翔：云從所有核心技術(shù)都來(lái)自云從研究院，目前，研究院處于云從戰(zhàn)略最高點(diǎn)。研究院的工作圍繞三個(gè)方向展開(kāi)：

一是對(duì)前沿算法的深入研究、自主創(chuàng)新。我們會(huì)緊跟當(dāng)前世界上最前沿的計(jì)算機(jī)視覺(jué)技術(shù)和人工智能技術(shù)，也會(huì)推陳出新，研究新的人工智能視覺(jué)算法。
二是針對(duì)業(yè)內(nèi)已有的算法進(jìn)行深入研究。比如我們剛剛發(fā)布的「3D 結(jié)構(gòu)光人臉識(shí)別技術(shù)」，跨鏡追蹤技術(shù)（ReID）。此外，還有車(chē)輛、人群密度、交通行為、擁堵、醫(yī)療影像等等，只要與計(jì)算機(jī)視覺(jué)有關(guān)，我們都會(huì)或多或少進(jìn)行布局。
三是將算法產(chǎn)品化。我們需要對(duì)這些算法進(jìn)行封裝，做產(chǎn)品級(jí)別的 SDK 和引擎。

問(wèn)：云從與中科院、上海交大共建兩個(gè)聯(lián)合實(shí)驗(yàn)室，這兩個(gè)聯(lián)合實(shí)驗(yàn)室目前主要進(jìn)行哪些方面的研究？

周翔：這兩個(gè)聯(lián)合實(shí)驗(yàn)室側(cè)重于計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿算法研究。云從會(huì)將前沿領(lǐng)域的研究放到高校團(tuán)隊(duì)，讓學(xué)生與研究人員一起，做一些預(yù)研以及算法的基礎(chǔ)研究。

此外，云從創(chuàng)始人周曦是這兩所高校的博士生導(dǎo)師，他也會(huì)對(duì)學(xué)生進(jìn)行論文指導(dǎo)，推薦他們參加頂會(huì)。

問(wèn)：云從科技于 2015 年成立，這 3 年來(lái)，你們?cè)谟?jì)算機(jī)視覺(jué)領(lǐng)域取得了哪些具有代表性的技術(shù)突破？

周翔：云從成立之前，我們?cè)谥锌圃旱募夹g(shù)就已經(jīng)比較領(lǐng)先。2015 年，我們?cè)?FDDB(Face Detection Data Set and Benchmark) 和 LFW(Labeled Faces in the Wild Home) 上刷到前三之后，覺(jué)得已經(jīng)很好地展示了學(xué)術(shù)實(shí)力，就開(kāi)始專(zhuān)心打磨產(chǎn)品。公司成立初期，我們更多看重產(chǎn)品落地。

當(dāng)然，我們也一直在做前沿研究，今年二月，我們發(fā)布結(jié)構(gòu)光 3D 人臉識(shí)別技術(shù)，最近，我們?cè)?ReID（跨境追蹤技術(shù)）上又一次刷榜。

隨著公司的發(fā)展，隊(duì)伍越來(lái)越壯大，我們可能會(huì)有新的定位，也會(huì)去發(fā)表論文，宣傳技術(shù)上的突破。當(dāng)然，我們還需要靜下心來(lái)，踏踏實(shí)實(shí)將技術(shù)落地，只有這樣，客戶才會(huì)認(rèn)可我們。

問(wèn)：接下來(lái)云從研究院主要會(huì)攻克哪些方面的難題？

周翔：首先做好計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)技術(shù)研究，比如對(duì)人臉、車(chē)輛、行人的檢測(cè)。

之后，我們會(huì)投入更多時(shí)間，去從人的角度分析構(gòu)建深度神經(jīng)網(wǎng)絡(luò)，讓深度學(xué)習(xí)具有可解釋性。對(duì)深度學(xué)習(xí)有所了解的人都知道，它是一個(gè)「黑匣子」，雖然很多時(shí)候遠(yuǎn)勝傳統(tǒng)算法，但缺乏可解釋性。我們研究人工智能，應(yīng)該要讓計(jì)算機(jī)能夠像人類(lèi)一樣去思考和識(shí)別，具備自己的邏輯判斷，并且我們?nèi)祟?lèi)可以理解他們的思考。

問(wèn)：你們近日在 Market-1501 上的首位命中率（Rank-1 Accuracy）達(dá)到 96.6%，刷新 ReID 榜單，這一數(shù)字是否還存在很大提升空間？與人臉識(shí)別相比呢？

周翔：提升空間肯定存在，但是對(duì)行人識(shí)別的研究比人臉識(shí)別更難。

第一，人臉的五官、臉型比較固定，不可能發(fā)生特別大的變化。行人不一樣，大家在走路、打球、跑步時(shí)的姿態(tài)千變?nèi)f化，伴隨彎腰、后仰等各種動(dòng)作，沒(méi)辦法很好地約束。
第二，我們還要根據(jù)體態(tài)、穿著來(lái)判斷行人。如果很多人穿著同樣的衣服，識(shí)別難度將更大。我們主要的判斷依據(jù)就是服飾、配飾、體型、發(fā)型等特點(diǎn)。如果兩個(gè)人的服飾、發(fā)型等類(lèi)似，這將很難辨識(shí)。

問(wèn)：為了加深行人辨識(shí)的精準(zhǔn)度，主要用到的核心技術(shù)有哪些？

周翔：在行人識(shí)別上，我們創(chuàng)新性地提出全局+局部多粒度的識(shí)別理論。我們能通過(guò)人的形態(tài)、服裝等去做整體判斷，然后再通過(guò)一些細(xì)節(jié)，比如衣物商標(biāo)、挎包類(lèi)型、服飾特征去判斷，即聚合同一個(gè)人在不同情況下的照片。

云從大腦

問(wèn)：你們?cè)岬接?xùn)練人臉識(shí)別時(shí)的網(wǎng)絡(luò)架構(gòu)，包括結(jié)構(gòu)化+非結(jié)構(gòu)化的數(shù)據(jù)、雙層異構(gòu)深度神經(jīng)網(wǎng)絡(luò)、三層金字塔式的遷移學(xué)習(xí)，這與云從大腦有什么關(guān)聯(lián)？

周翔：這是云從大腦其中一個(gè)最基礎(chǔ)的識(shí)別認(rèn)知模型。

問(wèn)：在云從大腦構(gòu)建的過(guò)程中，主要的技術(shù)難點(diǎn)有哪些？

周翔：最初構(gòu)建云從大腦時(shí)，還是存在一定難度。開(kāi)源算法有很多，但我們需要研制出支持大類(lèi)別分布式訓(xùn)練的算法。

人的類(lèi)別是無(wú)窮的，以中國(guó)人來(lái)舉例，就有十幾億的類(lèi)別，這需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。在算力一定的情況下，如何讓效率更高；如果模型太深，如何去做加速，這些難點(diǎn)需要一個(gè)個(gè)突破。

問(wèn)：目前一直在進(jìn)行云從大腦的優(yōu)化與改進(jìn)嗎？

周翔：是的，目前云從大腦只有人臉識(shí)別功能，后續(xù)我們會(huì)加入行人識(shí)別，之后會(huì)慢慢擴(kuò)充，加入車(chē)輛、人群等，讓它的應(yīng)用的領(lǐng)域更加廣泛。最后，我們還考慮將語(yǔ)音、文字等的識(shí)別全部構(gòu)建到云從大腦上，讓這個(gè)大腦就像人腦一樣，既能看懂圖像，還得讀懂文字，還能聽(tīng)到聲音，理解語(yǔ)意。這是我們的最終目標(biāo)。

問(wèn)：想要把行人識(shí)別等其他功能融合進(jìn)云從大腦，需要解決哪些技術(shù)上的難點(diǎn)？

周翔：主要有以下幾點(diǎn)：

第一，將所有算法融合到一起，變成一個(gè)超級(jí)大腦進(jìn)行統(tǒng)一分析，輸出有效信息。

我們常提到谷歌的 AlphaGo，它只會(huì)下圍棋，同樣，我們的網(wǎng)絡(luò)有些分析人臉，有些分析行人，有些分析車(chē)輛，如何將算法以及分析結(jié)果融合，變成一個(gè)整體，這是一個(gè)挑戰(zhàn)。

第二，海量的數(shù)據(jù)。

當(dāng)數(shù)據(jù)越來(lái)越多，如何對(duì)這些海量數(shù)據(jù)進(jìn)行有效分析；哪些數(shù)據(jù)是無(wú)用數(shù)據(jù)，如何高效去除這些無(wú)用數(shù)據(jù)。

第三，算力。

如何通過(guò)硬件的異構(gòu)處理，充分提高算力和速度，降低能耗。

問(wèn)：中科院李子青教授此前在雷鋒網(wǎng)安防峰會(huì)上提到，他們針對(duì)安防數(shù)據(jù)使用半監(jiān)督自主學(xué)習(xí)，這是一個(gè)技術(shù)亮點(diǎn)，效果好過(guò)監(jiān)督學(xué)習(xí)很多倍。你們?cè)谟?xùn)練 AI 的時(shí)候，使用的是遷移學(xué)習(xí)。對(duì)比起來(lái)，半監(jiān)督自主學(xué)習(xí)和遷移學(xué)習(xí)在大規(guī)模人臉識(shí)別的場(chǎng)景下，差異點(diǎn)在哪里？

周翔：遷移學(xué)習(xí)是在一定的數(shù)據(jù)基礎(chǔ)上去做知識(shí)的遷移，我們?cè)谧畹讓右灿玫奖O(jiān)督學(xué)習(xí)，此外，或多或少會(huì)用一些半監(jiān)督或非監(jiān)督的學(xué)習(xí)方法。李子青教授團(tuán)隊(duì)可能在半監(jiān)督學(xué)習(xí)算法里做了更多的改進(jìn)，把它變成一個(gè)亮點(diǎn)，使這一算法的效率更高，效果更好。

其實(shí)每家公司在許多環(huán)節(jié)中或多或少都會(huì)有一些創(chuàng)新，大家的算法都會(huì)有各自的特點(diǎn)，用哪種算法并不是那么重要。

另外，方法的使用也與數(shù)據(jù)有關(guān)。前面提到我們有超大規(guī)模結(jié)構(gòu)化數(shù)據(jù)，利用這種數(shù)據(jù)，我們能很好地訓(xùn)練底層人臉識(shí)別模型。假設(shè)現(xiàn)在我們沒(méi)有這種數(shù)據(jù)，只有互聯(lián)網(wǎng)上的或是通過(guò)其它項(xiàng)目得到的非結(jié)構(gòu)化數(shù)據(jù)，那就沒(méi)辦法很好地用監(jiān)督學(xué)習(xí)，只能利用半監(jiān)督或非監(jiān)督學(xué)習(xí)的方法了。

走向行業(yè)

問(wèn)：云從剛開(kāi)始成立的時(shí)候，先在金融領(lǐng)域占據(jù)大量市場(chǎng)，后來(lái)又布局安防領(lǐng)域。在將產(chǎn)品應(yīng)用于這兩個(gè)行業(yè)的時(shí)候，對(duì)技術(shù)的要求會(huì)存在哪些差異？

周翔：差異非常大。

金融行業(yè)更看重的是安全，算法必須達(dá)到極致。銀行對(duì)人臉識(shí)別算法的誤識(shí)率要求非常高，比如說(shuō)百萬(wàn)分之一的誤識(shí)率，直觀解釋?zhuān)?100 萬(wàn)個(gè)人拿著別人的身份證去取錢(qián)，只有一個(gè)人能夠騙過(guò)算法。

此外，銀行場(chǎng)景下獲取到的人臉圖片質(zhì)量要比安防行業(yè)好。

但公安就不一樣了，他們對(duì)人臉識(shí)別準(zhǔn)確率的要求沒(méi)有銀行高，更看重的是算法的綜合運(yùn)用，即平臺(tái)能力、系統(tǒng)能力。

公安會(huì)看重視頻處理的速度，需要能實(shí)時(shí)顯示。舉個(gè)簡(jiǎn)單的例子，比如嫌疑犯從某一地點(diǎn)經(jīng)過(guò)，系統(tǒng)需要 30 秒才能將他識(shí)別出來(lái)，那就不行，公安會(huì)說(shuō)，再不快一點(diǎn)確認(rèn)，嫌疑犯就跑了。

另外，只有人臉識(shí)別行不通，公安更看重的是能不能跟行人識(shí)別相結(jié)合，識(shí)別出來(lái)之后，能不能去做聯(lián)動(dòng)，如果在其它視頻里也發(fā)現(xiàn)這個(gè)人，是否能畫(huà)出他的行動(dòng)軌跡，把他的出現(xiàn)地點(diǎn)、頻次等信息都反饋出來(lái)。

問(wèn)：您前面也提到云從的技術(shù)很早就已經(jīng)很成熟，后來(lái)主要是在做落地。你們?cè)趯⑺惴涞氐倪^(guò)程中，面臨哪些比較大的挑戰(zhàn)？

周翔：要將算法落地做成一款產(chǎn)品，需要考慮的因素非常多，也面臨著很多挑戰(zhàn)。算法好不代表產(chǎn)品好，產(chǎn)品好也不代表客戶一定會(huì)用。

直觀一點(diǎn)解釋?zhuān)龀僧a(chǎn)品，要考慮外觀、使用體驗(yàn)、系統(tǒng)的流暢性、售后，即如何把產(chǎn)品包裝成客戶認(rèn)可的解決方案。

我們是 2B 公司，客戶的需求千變?nèi)f化，如何快速定制、快速解決客戶的不同需求，這都是需要考慮的。

另外，將產(chǎn)品推向市場(chǎng)時(shí)，還需要考慮公司是否具備資質(zhì)，是否避開(kāi)了其它公司的專(zhuān)利，是否有商務(wù)上的成功案例。

問(wèn)：很多人都會(huì)將云從、依圖、曠視、商湯這 4 家以 CV 為核心的公司來(lái)比較，您如何看待這三家友商？

周翔：這幾家公司在算法層面做的都還不錯(cuò)，我也非常欣賞這幾家公司。雖然我們各家也會(huì)在一些領(lǐng)域上進(jìn)行 PK，但每家公司的算法特點(diǎn)會(huì)有一定區(qū)別。

商湯招募了非常多的博士在內(nèi)的研究人員，研究領(lǐng)域涉及多個(gè)方面，比如自動(dòng)駕駛、商超等領(lǐng)域，他們想賦能百業(yè)，把人工智能應(yīng)用到各個(gè)行業(yè)。

曠視最近剛剛收購(gòu)艾瑞思機(jī)器人（Ares robot），它們可能更多地想在機(jī)器人領(lǐng)域進(jìn)行擴(kuò)展。他們?cè)诨ヂ?lián)網(wǎng)金融上做得非常出色，在這里比較有優(yōu)勢(shì)。

依圖最早是做車(chē)輛識(shí)別以及安防，他們的安防算法做得很棒，得到公安的高度認(rèn)可。目前他們也在做醫(yī)療，我們也希望他們?cè)卺t(yī)療上能做出非常好的成績(jī)。

云從跟這幾家公司也有一些區(qū)別，云從是國(guó)家產(chǎn)業(yè)隊(duì)，我們拿了一些國(guó)家級(jí)別的項(xiàng)目，更偏重頂層設(shè)計(jì)。

我們目前接觸最多的是銀行、公安，我們會(huì)從四大行開(kāi)始滲透，先把金融做得更好，然后在金融領(lǐng)域做一些其它的 AI 業(yè)務(wù)，包括風(fēng)控、智慧銀行等。

對(duì)于安防，我們會(huì)跟公安部合作，先去設(shè)計(jì)一些標(biāo)準(zhǔn)，然后做出一些公安高度認(rèn)可的產(chǎn)品和系統(tǒng)。

96.6% 云從科技跨鏡追蹤(ReID)技術(shù)刷新三項(xiàng)世界紀(jì)錄

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門(mén)文章