專訪金山 AILab 實(shí)驗(yàn)室負(fù)責(zé)人李長(zhǎng)亮博士：在金山做 NLP 最重要的是保護(hù)用戶隱私

本文作者： skura

編輯：汪思穎

2019-03-25 11:17

導(dǎo)語(yǔ)：金山 AILab 布局 NLP 賽道，目前團(tuán)隊(duì)已取得了多項(xiàng)研究成果。

雷鋒網(wǎng) AI 科技評(píng)論按，2018 年年底，在 2018 AI Challenger「英中文本機(jī)器翻譯」賽道上，金山 AI Lab 以極大的比分優(yōu)勢(shì)一舉奪冠。這對(duì)成立不到兩年的金山 AI Lab 來(lái)說(shuō)，意義重大。它不僅是對(duì)團(tuán)隊(duì)此前幾個(gè)月努力的認(rèn)可，也證明了金山在機(jī)器翻譯領(lǐng)域的技術(shù)優(yōu)勢(shì)。

作為一家低調(diào)的公司，鮮少見(jiàn)到外界對(duì)金山 AI Lab 的報(bào)導(dǎo)。近日，雷鋒網(wǎng)采訪了金山 AI Lab 實(shí)驗(yàn)室主任李長(zhǎng)亮博士，就 AI Lab 的研究工作和發(fā)展進(jìn)行了探討。

初見(jiàn)李博士，是 18 年年底在金山的一次媒體交流會(huì)上。當(dāng)時(shí)，李博士戴著眼鏡，講話時(shí)溫和而有耐心，身上散發(fā)著濃濃的學(xué)術(shù)氣質(zhì)，給雷鋒網(wǎng)留下了深刻的印象。本次采訪再見(jiàn)李博士，在一個(gè)多小時(shí)的交流過(guò)程中，雷鋒網(wǎng)被李博士淵博的學(xué)識(shí)、對(duì)科研的熱愛(ài)深深折服。

專訪金山 AILab 實(shí)驗(yàn)室負(fù)責(zé)人李長(zhǎng)亮博士：在金山做 NLP 最重要的是保護(hù)用戶隱私

金山集團(tuán)AI Lab實(shí)驗(yàn)室主任李長(zhǎng)亮

李長(zhǎng)亮，現(xiàn)任金山集團(tuán) AI Lab 實(shí)驗(yàn)室主任，畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所，從事人工智能與自然語(yǔ)言處理研究，發(fā)表國(guó)際會(huì)議論文二十余篇，申請(qǐng)國(guó)家發(fā)明專利二十余項(xiàng)，主持多項(xiàng)重大課題，多次在國(guó)際競(jìng)賽中獲得冠軍，先后入選中文信息學(xué)會(huì)青年工作委員會(huì)委員、語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)委員、社會(huì)媒體處理專業(yè)委員會(huì)委員、人工智能學(xué)會(huì)自然語(yǔ)言理解專業(yè)委員會(huì)委員等等。

順應(yīng)時(shí)代大勢(shì)，成立 AI Lab

2017 年 5 月，順應(yīng)國(guó)家大勢(shì)和企業(yè)發(fā)展的需求，金山集團(tuán)成立 AI Lab，由金山副總裁姚冬直接分管。

AI Lab 的定位是輔助金山集團(tuán)的四個(gè)子公司——金山辦公、西山居、獵豹移動(dòng)和金山云進(jìn)行業(yè)務(wù)上的落地。據(jù)李博士透露，AI Lab 主要對(duì)金山辦公 WPS 提供技術(shù)上的輔助支持，接下來(lái)，團(tuán)隊(duì)還會(huì)和金山云進(jìn)行一些深度合作。

目前，金山 AI Lab 主攻 NLP 賽道，涵蓋圖像、文本、語(yǔ)音三大方向，主要研究?jī)?nèi)容分為知識(shí)圖譜、機(jī)器翻譯、內(nèi)容推薦和智能校對(duì)等。研究項(xiàng)目主要分為兩類，一類是專注于落地的項(xiàng)目，如機(jī)器翻譯、智能校對(duì)等；另一類是專注于基礎(chǔ)服務(wù)的項(xiàng)目，例如知識(shí)圖譜，可以對(duì)這些直接落地的項(xiàng)目提供長(zhǎng)期的輔助研究。

成立一年多以來(lái)，團(tuán)隊(duì)碩果累累，在多個(gè)研究方向上都取得了很大的突破，如知識(shí)圖譜、機(jī)器翻譯等。在知識(shí)圖譜領(lǐng)域，2018 年金山 AI Lab 支援 WPS 智能公文寫(xiě)作項(xiàng)目，構(gòu)建了國(guó)內(nèi)第一個(gè)黨政知識(shí)圖譜。但進(jìn)展最大的要數(shù)機(jī)器翻譯領(lǐng)域。過(guò)去一年，團(tuán)隊(duì)在機(jī)器翻譯技術(shù)方面創(chuàng)新出層次注意力機(jī)制、高斯搜索等獨(dú)特算法，并在工程細(xì)節(jié)、特征提取等方面積累了豐富的經(jīng)驗(yàn)。

團(tuán)隊(duì)還有很多新布局的研究方向，閱讀理解、智能文檔、內(nèi)容推薦、語(yǔ)音合成、語(yǔ)音識(shí)別等等。這些都是根據(jù)用戶需求而提出的研究。比如語(yǔ)音識(shí)別和合成，雖然金山有大量的文檔，但是對(duì)于某些特殊的群體（如老人）或者在特殊的環(huán)境（如晚上睡覺(jué)前）下，有很多用戶希望聽(tīng)到文檔的內(nèi)容而不是用眼睛去看。語(yǔ)音合成技術(shù)也是用在文檔上，可以選擇成熟男聲、優(yōu)美女聲童聲或者方言等，滿足不同用戶的需求。

AI Lab 最核心的優(yōu)勢(shì)是人才和數(shù)據(jù)

作為一家成立三十多年的大公司，金山在很多方面都有著自己獨(dú)特的優(yōu)勢(shì)。在李博士看來(lái)，金山 AI Lab 有兩大核心優(yōu)勢(shì)。

第一個(gè)核心優(yōu)勢(shì)是人才。目前，金山 AI Lab 不僅有五十多位專業(yè)的 NLP 人才，還有專業(yè)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。近年來(lái)，隨著算法的進(jìn)步、硬件的發(fā)展、大數(shù)據(jù)和互聯(lián)網(wǎng)的進(jìn)步，人工智能技術(shù)迎來(lái)大爆發(fā)。經(jīng)過(guò)一段時(shí)間的發(fā)展，NLP 技術(shù)證明了它落地的可能性，但人工智能尤其是 NLP 技術(shù)的發(fā)展幾經(jīng)起落，學(xué)術(shù)界對(duì)人才的培養(yǎng)還沒(méi)有跟上來(lái)。目前，NLP 人才尤其短缺，人才是 AI Lab 最核心的競(jìng)爭(zhēng)力之一。

金山 AI Lab 的第二個(gè)優(yōu)勢(shì)是數(shù)據(jù)。金山辦公作為一家專注于文檔處理的公司，在文檔數(shù)據(jù)量方面擁有較大優(yōu)勢(shì)，每天由 WPS Office 創(chuàng)建編輯文檔達(dá) 5 億，累計(jì)存儲(chǔ)文件 10PB。金山辦公用戶共享的海量數(shù)據(jù)對(duì) AI Lab 研究 NLP 技術(shù)提供了絕對(duì)的優(yōu)勢(shì)。

作為 AI Lab 的負(fù)責(zé)人，李博士平時(shí)的工作除了科研任務(wù)以及業(yè)務(wù)上的對(duì)接之外，還要管理整個(gè)團(tuán)隊(duì)，負(fù)責(zé)人才的招聘和培養(yǎng)。談到對(duì)人才的培養(yǎng)，他認(rèn)為最重要的一點(diǎn)是，讓合適的人在自己感興趣的領(lǐng)域里面發(fā)揮最大的價(jià)值?；谶@一理念，團(tuán)隊(duì)成員的工作會(huì)參考每個(gè)人的興趣不定期進(jìn)行一定程度的優(yōu)化調(diào)整。

專訪金山 AILab 實(shí)驗(yàn)室負(fù)責(zé)人李長(zhǎng)亮博士：在金山做 NLP 最重要的是保護(hù)用戶隱私

金山AI Lab團(tuán)隊(duì)合影

參加 2018 AI Challenger「英中文本機(jī)器翻譯」比賽對(duì)團(tuán)隊(duì)來(lái)說(shuō)是一次非常難忘的一個(gè)經(jīng)歷，在準(zhǔn)備比賽的一個(gè)多月的時(shí)間里，每個(gè)人都處于戰(zhàn)斗狀態(tài)，每天廢寢忘食地研究到晚上十二點(diǎn)以后，才會(huì)陸續(xù)有人離開(kāi)公司。這個(gè)過(guò)程不僅讓他們對(duì)機(jī)器翻譯這個(gè)領(lǐng)域有了更加深刻的理解，而且整個(gè)團(tuán)隊(duì)的氛圍得到了很好的提升，團(tuán)隊(duì)之間的協(xié)作更加默契。研究的過(guò)程雖然辛苦，但是也往往會(huì)發(fā)生一些趣事。比如，在模型測(cè)試過(guò)程當(dāng)中，偶爾會(huì)出現(xiàn)一些翻譯得風(fēng)馬牛不相及的句子，這給緊張的科研過(guò)程帶來(lái)了歡樂(lè)。

金山做 NLP 嚴(yán)格遵守并保護(hù)用戶隱私

談到在金山做 NLP 的難點(diǎn)，李博士認(rèn)為，目前業(yè)界的難點(diǎn)是共通的，如句子的理解和生成，以及最基礎(chǔ)的分詞、詞性標(biāo)注。但具體到公司，由于各家研究側(cè)重點(diǎn)不盡相同，所以面對(duì)的難點(diǎn)也都是有區(qū)別的。

對(duì)金山來(lái)說(shuō)，目前還存在許多技術(shù)難題需要解決。例如，最基本分詞詞性標(biāo)注 NLP，目前對(duì)底層的技術(shù)還沒(méi)有完全攻克，準(zhǔn)確率大概才百分之九十幾，還不能夠達(dá)到讓用戶滿意的準(zhǔn)確率。除了這些技術(shù)攻關(guān)外，在應(yīng)用落地的時(shí)候，也會(huì)涉及到線上部署、用戶請(qǐng)求服務(wù)器等技術(shù)問(wèn)題。

AI Lab 一直在進(jìn)行技術(shù)上的優(yōu)化，在機(jī)器翻譯、閱讀理解、知識(shí)圖譜、內(nèi)容推薦和智能文檔等技術(shù)上的后續(xù)優(yōu)化也是目前一直在改進(jìn)的方向。除了在效率和準(zhǔn)確率上進(jìn)行提升外，還需要做一些領(lǐng)域上的突破。比如，雖然 AI Lab 在機(jī)器翻譯上已經(jīng)取得了不錯(cuò)的成果，但優(yōu)化也是無(wú)止境的。對(duì)于機(jī)器翻譯，在李博士看來(lái)，要做到「信達(dá)」并不難，但是要達(dá)到「雅」的境界就特別困難。用機(jī)器翻譯技術(shù)處理公文和一般的文檔并不難，但是如果要翻譯好一些文學(xué)作品，就要達(dá)到「雅」的境界，這是非常困難的。

除了這些難點(diǎn)，李博士認(rèn)為在金山做研究重要的一點(diǎn)是嚴(yán)格遵守并保護(hù)用戶隱私。他們可以承諾的是，云文檔放在金山是絕對(duì)安全的。雖然他們知道用戶數(shù)據(jù)具有重大的研究?jī)r(jià)值，但是他們的原則是，絕不碰用戶數(shù)據(jù)，這也是金山的底線和信仰。

目前對(duì)數(shù)據(jù)的處理方法是，所有的數(shù)據(jù)都被分解到不同的地方，存到不同的服務(wù)器上。技術(shù)人員接觸到的數(shù)據(jù)都是經(jīng)過(guò)拆分的，并保存在不同的地方。除此之外，他們還制定了一系列的規(guī)章制度，以確保數(shù)據(jù)的安全。用戶上傳的數(shù)據(jù)，任何人都不能碰。

NLP 未來(lái)可期，目前的科研環(huán)境來(lái)之不易

當(dāng)下人工智能的研究異常火爆，越來(lái)越多的人加入這個(gè)領(lǐng)域的研究，但在李博士看來(lái)，人工智能人才尤其的 NLP 領(lǐng)域的人才依然十分稀缺，這個(gè)行業(yè)仍然處于高速發(fā)展期，還遠(yuǎn)遠(yuǎn)不到產(chǎn)生泡沫的程度。

李博士認(rèn)為，NLP 是人工智能里面最難的一個(gè)領(lǐng)域，這是因?yàn)樗婕暗饺祟惖母叩戎腔?。即便?duì)于受過(guò)良好高等教育的成年人來(lái)說(shuō)，在理解語(yǔ)言的時(shí)候也可能不能正確地表達(dá)甚至?xí)a(chǎn)生歧義。除此之外，NLP 更是會(huì)涉及到復(fù)雜的文化背景，并且成長(zhǎng)經(jīng)歷不同、所處環(huán)境不同的人對(duì)語(yǔ)言的理解和使用也是不一樣的。

對(duì)于這一點(diǎn)，李博士給雷鋒網(wǎng)舉例說(shuō)，目前，他們正在做的事情當(dāng)中，有一項(xiàng)是根據(jù)用戶給定的一張圖片，生成一段文字來(lái)描述圖片中的場(chǎng)景。這就需要經(jīng)過(guò)大規(guī)模的學(xué)習(xí)做到，因?yàn)閳D片中的場(chǎng)景要描述清楚，都需要知道相關(guān)的背景。再比如對(duì)某些要求比較高的 PPT，需要配圖，但是可能那個(gè)圖片描述的場(chǎng)景在現(xiàn)實(shí)中并沒(méi)有發(fā)生過(guò)，因此需要用人工智能理解 PPT 的文字描述，來(lái)合成所需要的圖片。所有這些，都涉及到人類的高等智慧，因此如果要做到很高的準(zhǔn)確率，是比較難的。

談到 NLP 的未來(lái)，李博士非常樂(lè)觀。他認(rèn)為 NLP 技術(shù)目前還處于剛起步的階段，正處于迅速發(fā)展期。近幾年，NLP 技術(shù)才剛開(kāi)始找到大規(guī)模應(yīng)用，并有其它技術(shù)輔助支持，所以接下來(lái)的五到十年將是 NLP 的黃金發(fā)展期。

隨著科技的發(fā)展和全球商業(yè)、工業(yè)的發(fā)展，目前優(yōu)秀的成果不僅會(huì)出現(xiàn)的企業(yè)，也會(huì)出現(xiàn)在高校。目前，越來(lái)越多的學(xué)者從學(xué)術(shù)界投身到工業(yè)界。李博士認(rèn)為目前學(xué)術(shù)界與工業(yè)界的研究處于齊頭并進(jìn)的狀態(tài)，很多優(yōu)秀的框架都是來(lái)自于工業(yè)界。去學(xué)術(shù)界或者工業(yè)界只是個(gè)人選擇，為社會(huì)培養(yǎng)人才也是高校的責(zé)任之一。相比于學(xué)校，企業(yè)的項(xiàng)目和社會(huì)結(jié)合更加緊密。

而當(dāng)前的科研環(huán)境難能可貴，它是很多人經(jīng)過(guò)多年的努力、沉淀和積累發(fā)展起來(lái)的，這個(gè)環(huán)境需要所有人共同珍惜和維護(hù)。目前我們國(guó)家的現(xiàn)狀是，如果有哪個(gè)行業(yè)或者技術(shù)一旦變得火爆，資本和媒體就會(huì)蜂擁而至。然而，這些外部力量可能不會(huì)尊重技術(shù)，甚至?xí)拐麄€(gè)行業(yè)變得浮夸，帶來(lái)不好的影響。作為一個(gè)認(rèn)真做科研的人，對(duì)于這種情況，李博士表示了他的擔(dān)憂。他希望大家能夠能夠珍惜現(xiàn)在的發(fā)展環(huán)境。

一個(gè)多小時(shí)的采訪就此結(jié)束，在采訪的過(guò)程中，可以感受到李博士對(duì)科研是真心地?zé)釔?ài)。未來(lái)，金山 AILab 會(huì)帶給我們?cè)鯓拥捏@喜？讓我們拭目以待。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

skura

編輯

發(fā)私信

當(dāng)月熱門(mén)文章