0
2009 年,主要從事數(shù)字信號和圖像處理研究、博士剛剛畢業(yè)的薛暉拿到了阿里巴巴的 offer,那一年淘寶的全年交易額已經(jīng)達(dá)到 2083 億元,薛暉激動地搓搓小手,阿里巴巴的網(wǎng)站上有大量未被挖掘利用的數(shù)據(jù),比如照片、視頻、語音以及非結(jié)構(gòu)化的文本,如果能讓機(jī)器做到看清和讀懂這些信息,一定是一件非常有意義和有價值的事。
薛暉的構(gòu)想很美好,要將圖像識別的技術(shù)應(yīng)用到阿里巴巴的搜索、廣告以及安全審核中。然而,正經(jīng)如薛博士,萬萬沒有想到,公司先給了他一項重要的任務(wù):解放千千萬萬奮斗在電腦前的鑒黃師們。
“我來的時候,要解決的最大問題是淘寶的審核問題,當(dāng)時淘寶有很多違規(guī)圖片,色情圖片或是其他違法圖片。鑒別文字時,我們還能通過關(guān)鍵詞或者變體詞匯來審核,但是對待圖片,完全沒有能力,都靠人工。”薛暉對雷鋒網(wǎng)說。
所以,接下來雷鋒網(wǎng)要講述的是十年 AI 大佬如何從“解放”鑒黃師起步的故事。
【阿里安全圖靈實驗室負(fù)責(zé)人 薛暉】
有些學(xué)霸選專業(yè),哪里分?jǐn)?shù)高,就去哪里。
十年前,阿里巴巴搜索部技術(shù)很牛,于是,薛暉雄心勃勃地來到搜索部,并在 2010 年,與兩個男同事提出了一個非常創(chuàng)新的方案:將搜圖應(yīng)用在電商場景,比如用戶搜索時設(shè)置顏色導(dǎo)航,只要搜一件格子襯衫,蹦出一個調(diào)色板,點(diǎn)選顏色后,就會出來顏色一樣的格子襯衫,他們甚至提出了現(xiàn)在非常流行的“以圖搜圖”的設(shè)想。
想象很美好,現(xiàn)實很殘忍。那會,多數(shù)人手里還拿著諾基亞,超過 1 M流量,可能要被運(yùn)營商收走 5 塊錢,這樣“超前”的業(yè)務(wù)理念夭折了。
深度學(xué)習(xí)技術(shù)和高性能計算服務(wù)器并未成熟,移動端的各類應(yīng)用也未普及,薛暉還覺得,自己對業(yè)務(wù)痛點(diǎn)和場景的理解不足,對技術(shù)天花板的判斷不足,特別是當(dāng)兩者遇到矛盾時找不到可以妥善解決的方法。
隨著淘寶業(yè)務(wù)量的大量級提升,包括商品和社區(qū)板塊的 UGC 信息量增長很快,原有的規(guī)則加人工的審核模式無法滿足需求,也就是說,幾十個淘寶小二(鑒黃師)面對數(shù)據(jù)海量增長,筋疲力竭。阿里內(nèi)部愈發(fā)發(fā)現(xiàn),安全更加重要,以淘寶安全為基礎(chǔ),阿里集團(tuán)安全部正式成立。
這個部門吸引了薛暉的注意力。
學(xué)霸內(nèi)心一盤算,阿里是一個典型的技術(shù)要與業(yè)務(wù)高度結(jié)合的公司,要把之前的技術(shù)推下去,得有應(yīng)用場景?。¤b于之前在搜索部初試反擊黃賭毒有一定效果,薛暉覺得,自己推行的技術(shù)在安全領(lǐng)域可能比較容易落地,于是,他主動申請轉(zhuǎn)崗到阿里安全部。
薛暉把黃圖鑒別和以圖搜圖的技術(shù)用到了這里。最早,他采用的是利用黑樣本圖片找到類似圖片的方法,并逐漸加上了 OCR 和人臉識別技術(shù),當(dāng)然,這些都是基于傳統(tǒng)技術(shù),當(dāng)初并沒有深度學(xué)習(xí)技術(shù)的應(yīng)用。
比如,當(dāng)時薛暉等人是這樣區(qū)別一張色情圖片與正常圖片的:
有大面積的接近皮膚顏色的像素
像素之間是有連通性而不是很分散
紋理特征接近皮膚
存在類似軀干比例的矩形或橢圓
皮膚區(qū)域是否集中在人臉以下的特定位置等
所有這些特征的權(quán)重組合通過機(jī)器學(xué)習(xí)模型決定,也因此,機(jī)器通過顏色、紋理、形狀來識別黃圖,大量肉色的沙發(fā)、地板會被“無辜牽連”,機(jī)器鑒黃也只能識別正經(jīng)臉的蒼老師,動漫版、大幅度傾斜的小黃圖無法識別。
薛暉還面臨剛起步需要“證明自己”的問題——這項業(yè)務(wù)看起來還沒有那么重要,大家不相信他們可以做出來什么,所以薛暉等人要不到研究的錢和資源。比如,他們要想申請一臺幾萬塊的物理訓(xùn)練機(jī),要把報告打到高層老板那里。
要想證明項目可行,就要提效省錢。
雖然上述首次使用的基于統(tǒng)計模型的機(jī)器學(xué)習(xí)方法現(xiàn)在早已被迭代,但在過去,它能把效率提升幾十甚至上百倍?!爱?dāng)時全人工審核沒法篩選圖片,降人力是最關(guān)鍵的,也是最直接的?!毖熣f,幾年間,數(shù)據(jù)量呈線性增長,剛開始負(fù)責(zé)人工審核的小二是幾十個人,現(xiàn)在依然是幾十個人。
薛暉一邊解放著人肉鑒黃師的人力,一邊迎來人工智能發(fā)展的大勢。
2016 年,Alpha-go 戰(zhàn)勝了李世石,谷歌也正式發(fā)布了基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng),神經(jīng)網(wǎng)絡(luò)通過各種應(yīng)用正在重塑圖像識別、自然語言處理等領(lǐng)域。同一年,阿里安全部將薛暉所在的整個基礎(chǔ)算法團(tuán)隊更名為“阿里安全圖靈實驗室”。
薛暉忙著將負(fù)責(zé)業(yè)務(wù)的模型往深度學(xué)習(xí)上的遷移,一邊與團(tuán)隊一起將人工智能技術(shù)落地到更多的場景,如知識產(chǎn)權(quán)、身份核驗以及各種基于人臉識別技術(shù)的 IOT 應(yīng)用等。
比如,他們將這套鑒黃體系以產(chǎn)品形式推了出來——有“AI 鑒黃師之稱的阿里巴巴“綠網(wǎng)”用人工智能識別網(wǎng)絡(luò)上包括色情、暴力在內(nèi)的違規(guī)信息,通過人工智能、深度學(xué)習(xí)等技術(shù),識別千萬張正常圖片與色情圖片,最終生成一個智能鑒黃模型。
淘寶店鋪邁向?qū)嵢苏J(rèn)證也是其中的應(yīng)用之一。剛開始,上傳到后臺的信息都由人工比對,兩個人是不是同一個人?身份證號碼是否和人匹配?2016 年,實人認(rèn)證進(jìn)入了完全自動化時代,很少有人知道,一個機(jī)器大腦正在處理這個龐大的信息庫。店鋪用戶上傳的所有信息經(jīng)過機(jī)器之手,人類卻無權(quán)調(diào)用。
薛暉所在的團(tuán)隊在證明可以“提效省錢”的基礎(chǔ)上,面臨了“賺錢”的挑戰(zhàn)。
上面提到的“綠網(wǎng)”是在阿里提出生態(tài)戰(zhàn)略的背景下被阿里云“集成”的技術(shù),這款提供內(nèi)容安全、實人認(rèn)證的云服務(wù)產(chǎn)品推出伊始,瞄準(zhǔn)的是阿里體系的生態(tài)企業(yè),現(xiàn)在也包括阿里云上的客戶。
“本來對內(nèi)服務(wù)的產(chǎn)品,走到到一個充分面向市場競爭的環(huán)境,一下子還不太適應(yīng)?!毖煱l(fā)現(xiàn),在阿里內(nèi)部場景積累的經(jīng)驗和模型并不可以直接拿來使用,尤其是面對云上形形色色的非電商行業(yè)客戶。從阿里內(nèi)部跳出來看,“綠網(wǎng)”的競爭對手并不是傳統(tǒng)意義的巨頭企業(yè),而是各類做計算機(jī)視覺、自然語言處理的獨(dú)角獸和創(chuàng)業(yè)公司。
沒什么別的好辦法,只有不斷在標(biāo)準(zhǔn)化、通用性、技術(shù)先進(jìn)性上打磨產(chǎn)品。對于“被集成”的綠網(wǎng),要靠業(yè)績說話,薛暉對雷鋒網(wǎng)透露,綠網(wǎng)現(xiàn)在每年為阿里云貢獻(xiàn)了不少收入。
證明了自己對業(yè)務(wù)的重要性后,阿里安全圖靈實驗室從二十幾人一下躍升到幾十人的規(guī)模,并且在北京建立了新的小分隊,薛暉不斷在北京和杭州間來回,讓新團(tuán)隊跟上節(jié)奏。
他們的節(jié)奏不得不提起來了。
對薛暉而言,更多技術(shù)的落地并沒有那么容易。光拿下阿里杭州園區(qū)的門禁,他們就費(fèi)了一番力氣。園區(qū)的行政部門的同事對使用門禁刷臉有顧慮:
識別率到底高不高?園區(qū)里這么多人,誤識別了怎么辦?
無人值守這些人臉識別設(shè)備時,會不會有人就拿著照片或者手機(jī)屏幕直接破解?
上班人流高峰期,過人臉識別這一關(guān)快不快?不要大家都擠在一起上不了班。
最重要的是,你讓我們增加高清攝像頭,成本會不會蹭蹭上漲?
薛暉帶著人一步一步去說服,通過一些數(shù)據(jù)和 ROI 的分析說服了業(yè)務(wù)愿意試點(diǎn),一開始是在一個卡口上進(jìn)行,為了取得最好的調(diào)試效果,工程師們自己扛著攝像頭到現(xiàn)場進(jìn)行參數(shù)調(diào)試和角度安裝,甚至要考慮安裝在室外的閘機(jī)是否受到環(huán)境光照影響,還要人工審核、分析每一個錯誤識別的案例,到底哪里出了幺蛾子。
把攝像頭放在線下的外部商場里,提供線下新零售的安全解決方案更難。
首先是成本控制問題,不能用太貴的攝像頭,還要解決人群、人體、貨架的遮擋,每個店的地理環(huán)境甚至都有影響,比如,有些店是長廊形式,但有些店面是完全開放的,甚至沒有明確的邊界,入口和出口的數(shù)量不一,攝像頭擺放的角度和數(shù)量都有講究,而這些都只是為背后的“安全 AI 大腦”助力的觸手。
薛暉等人還要解決的是“人”都很難解決的問題。
人工智能技術(shù)在很多場景能應(yīng)用好依賴于幾個條件:第一,場景比較封閉,是一個比較容易定義的問題。第二,有大量的標(biāo)注數(shù)據(jù)。第三,計算能力。
線上結(jié)構(gòu)化的信息可以告訴你,那些是垃圾賬號,哪些注冊地和登陸地時常修改,客戶下單的正常、非正常路徑是哪些,依靠這些數(shù)據(jù),AI 可以洞悉一切不安全。但是,到了線下,小偷可以從任何一張門進(jìn)來,買貨之前可能有無數(shù)正常的路徑,還可以躲在各種遮擋背后。
上面那些條件很難成立,薛暉只能再次向?qū)嶋H的保安或安全人員學(xué)習(xí)抓小偷的經(jīng)驗,再用機(jī)器實現(xiàn)。
“現(xiàn)在我們有團(tuán)隊直接在商場里點(diǎn)對點(diǎn)做,就是不停地去調(diào)現(xiàn)場的問題,不停地跟他們的店長、店員、安全人員溝通,這是一個非常復(fù)雜的問題?!毖熣f。
除了內(nèi)容安全、知識產(chǎn)權(quán)保護(hù)、實人認(rèn)證與身份核驗、安防以及新零售的線下安全,薛暉還想把 AI 推到更垂直的安全場景中。
3 月 30 日 18 時,四川省涼山州木里縣一個名為雅礱江鎮(zhèn)立爾的村落村,發(fā)生嚴(yán)重的森林火災(zāi)。30 名滅火員犧牲,其中 27 名消防員,最小的才 18 歲。
薛暉認(rèn)認(rèn)真真想了兩天,以前開玩笑說要用 AI 解放全人類,這種高危的場景下更應(yīng)該有 AI 的應(yīng)用。比如,火災(zāi)防控也會涉及到很多圖像和視覺的問題,是否有更好的制定戰(zhàn)術(shù)控制火勢的方法?
“30 個人員犧牲,這代價是非常大的,我女兒小學(xué)班的家長里有人是消防員,曾經(jīng)組織過小學(xué)生和家長去參觀消防隊怎么工作,所以我也特別想到這個點(diǎn),這是非常重要的工作,我們身邊也會有人在做這件事情,我有時候在想,這屬不屬于 AI 安全或者是安全 AI ,讓我們今天從事的工作更安全,這也是保護(hù)人?!毖熣f。
十年前,薛暉隔壁實驗室的同學(xué)現(xiàn)在已經(jīng)做出了卓越的成就——嫦娥四號向地球傳回了世界上第一張近距離拍攝的月背影圖像。
有些人“上了天”,薛暉想做的,是讓人工智能和安全“落了地”。
4 月 10 日,坐在雷鋒網(wǎng)編輯面前的薛暉聊了這些故事。18 天后,阿里安全圖靈實驗室將 AI 圖像識別技術(shù)應(yīng)用在 AI 安全廚房解決方案,這個值守廚房的“AI 防火員”開啟了薛暉夢想的第一步。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。