0
雷鋒網(wǎng) AI 科技評(píng)論按,2018 年年底,在 2018 AI Challenger「英中文本機(jī)器翻譯」賽道上,金山 AI Lab 以極大的比分優(yōu)勢(shì)一舉奪冠。這對(duì)成立不到兩年的金山 AI Lab 來(lái)說(shuō),意義重大。它不僅是對(duì)團(tuán)隊(duì)此前幾個(gè)月努力的認(rèn)可,也證明了金山在機(jī)器翻譯領(lǐng)域的技術(shù)優(yōu)勢(shì)。
作為一家低調(diào)的公司,鮮少見(jiàn)到外界對(duì)金山 AI Lab 的報(bào)導(dǎo)。近日,雷鋒網(wǎng)采訪了金山 AI Lab 實(shí)驗(yàn)室主任李長(zhǎng)亮博士,就 AI Lab 的研究工作和發(fā)展進(jìn)行了探討。
初見(jiàn)李博士,是 18 年年底在金山的一次媒體交流會(huì)上。當(dāng)時(shí),李博士戴著眼鏡,講話時(shí)溫和而有耐心,身上散發(fā)著濃濃的學(xué)術(shù)氣質(zhì),給雷鋒網(wǎng)留下了深刻的印象。本次采訪再見(jiàn)李博士,在一個(gè)多小時(shí)的交流過(guò)程中,雷鋒網(wǎng)被李博士淵博的學(xué)識(shí)、對(duì)科研的熱愛(ài)深深折服。
金山集團(tuán)AI Lab實(shí)驗(yàn)室主任李長(zhǎng)亮
李長(zhǎng)亮,現(xiàn)任金山集團(tuán) AI Lab 實(shí)驗(yàn)室主任,畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所,從事人工智能與自然語(yǔ)言處理研究,發(fā)表國(guó)際會(huì)議論文二十余篇,申請(qǐng)國(guó)家發(fā)明專利二十余項(xiàng),主持多項(xiàng)重大課題,多次在國(guó)際競(jìng)賽中獲得冠軍,先后入選中文信息學(xué)會(huì)青年工作委員會(huì)委員、語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)委員、社會(huì)媒體處理專業(yè)委員會(huì)委員、人工智能學(xué)會(huì)自然語(yǔ)言理解專業(yè)委員會(huì)委員等等。
順應(yīng)時(shí)代大勢(shì),成立 AI Lab
2017 年 5 月,順應(yīng)國(guó)家大勢(shì)和企業(yè)發(fā)展的需求,金山集團(tuán)成立 AI Lab,由金山副總裁姚冬直接分管。
AI Lab 的定位是輔助金山集團(tuán)的四個(gè)子公司——金山辦公、西山居、獵豹移動(dòng)和金山云進(jìn)行業(yè)務(wù)上的落地。據(jù)李博士透露,AI Lab 主要對(duì)金山辦公 WPS 提供技術(shù)上的輔助支持,接下來(lái),團(tuán)隊(duì)還會(huì)和金山云進(jìn)行一些深度合作。
目前,金山 AI Lab 主攻 NLP 賽道,涵蓋圖像、文本、語(yǔ)音三大方向,主要研究?jī)?nèi)容分為知識(shí)圖譜、機(jī)器翻譯、內(nèi)容推薦和智能校對(duì)等。研究項(xiàng)目主要分為兩類,一類是專注于落地的項(xiàng)目,如機(jī)器翻譯、智能校對(duì)等;另一類是專注于基礎(chǔ)服務(wù)的項(xiàng)目,例如知識(shí)圖譜,可以對(duì)這些直接落地的項(xiàng)目提供長(zhǎng)期的輔助研究。
成立一年多以來(lái),團(tuán)隊(duì)碩果累累,在多個(gè)研究方向上都取得了很大的突破,如知識(shí)圖譜、機(jī)器翻譯等。在知識(shí)圖譜領(lǐng)域,2018 年金山 AI Lab 支援 WPS 智能公文寫(xiě)作項(xiàng)目,構(gòu)建了國(guó)內(nèi)第一個(gè)黨政知識(shí)圖譜。但進(jìn)展最大的要數(shù)機(jī)器翻譯領(lǐng)域。過(guò)去一年,團(tuán)隊(duì)在機(jī)器翻譯技術(shù)方面創(chuàng)新出層次注意力機(jī)制、高斯搜索等獨(dú)特算法,并在工程細(xì)節(jié)、特征提取等方面積累了豐富的經(jīng)驗(yàn)。
團(tuán)隊(duì)還有很多新布局的研究方向,閱讀理解、智能文檔、內(nèi)容推薦、語(yǔ)音合成、語(yǔ)音識(shí)別等等。這些都是根據(jù)用戶需求而提出的研究。比如語(yǔ)音識(shí)別和合成,雖然金山有大量的文檔,但是對(duì)于某些特殊的群體(如老人)或者在特殊的環(huán)境(如晚上睡覺(jué)前)下,有很多用戶希望聽(tīng)到文檔的內(nèi)容而不是用眼睛去看。語(yǔ)音合成技術(shù)也是用在文檔上,可以選擇成熟男聲、優(yōu)美女聲童聲或者方言等,滿足不同用戶的需求。
AI Lab 最核心的優(yōu)勢(shì)是人才和數(shù)據(jù)
作為一家成立三十多年的大公司,金山在很多方面都有著自己獨(dú)特的優(yōu)勢(shì)。在李博士看來(lái),金山 AI Lab 有兩大核心優(yōu)勢(shì)。
第一個(gè)核心優(yōu)勢(shì)是人才。目前,金山 AI Lab 不僅有五十多位專業(yè)的 NLP 人才,還有專業(yè)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。近年來(lái),隨著算法的進(jìn)步、硬件的發(fā)展、大數(shù)據(jù)和互聯(lián)網(wǎng)的進(jìn)步,人工智能技術(shù)迎來(lái)大爆發(fā)。經(jīng)過(guò)一段時(shí)間的發(fā)展,NLP 技術(shù)證明了它落地的可能性,但人工智能尤其是 NLP 技術(shù)的發(fā)展幾經(jīng)起落,學(xué)術(shù)界對(duì)人才的培養(yǎng)還沒(méi)有跟上來(lái)。目前,NLP 人才尤其短缺,人才是 AI Lab 最核心的競(jìng)爭(zhēng)力之一。
金山 AI Lab 的第二個(gè)優(yōu)勢(shì)是數(shù)據(jù)。金山辦公作為一家專注于文檔處理的公司,在文檔數(shù)據(jù)量方面擁有較大優(yōu)勢(shì),每天由 WPS Office 創(chuàng)建編輯文檔達(dá) 5 億,累計(jì)存儲(chǔ)文件 10PB。金山辦公用戶共享的海量數(shù)據(jù)對(duì) AI Lab 研究 NLP 技術(shù)提供了絕對(duì)的優(yōu)勢(shì)。
作為 AI Lab 的負(fù)責(zé)人,李博士平時(shí)的工作除了科研任務(wù)以及業(yè)務(wù)上的對(duì)接之外,還要管理整個(gè)團(tuán)隊(duì),負(fù)責(zé)人才的招聘和培養(yǎng)。談到對(duì)人才的培養(yǎng),他認(rèn)為最重要的一點(diǎn)是,讓合適的人在自己感興趣的領(lǐng)域里面發(fā)揮最大的價(jià)值?;谶@一理念,團(tuán)隊(duì)成員的工作會(huì)參考每個(gè)人的興趣不定期進(jìn)行一定程度的優(yōu)化調(diào)整。
金山AI Lab團(tuán)隊(duì)合影
參加 2018 AI Challenger「英中文本機(jī)器翻譯」比賽對(duì)團(tuán)隊(duì)來(lái)說(shuō)是一次非常難忘的一個(gè)經(jīng)歷,在準(zhǔn)備比賽的一個(gè)多月的時(shí)間里,每個(gè)人都處于戰(zhàn)斗狀態(tài),每天廢寢忘食地研究到晚上十二點(diǎn)以后,才會(huì)陸續(xù)有人離開(kāi)公司。這個(gè)過(guò)程不僅讓他們對(duì)機(jī)器翻譯這個(gè)領(lǐng)域有了更加深刻的理解,而且整個(gè)團(tuán)隊(duì)的氛圍得到了很好的提升,團(tuán)隊(duì)之間的協(xié)作更加默契。研究的過(guò)程雖然辛苦,但是也往往會(huì)發(fā)生一些趣事。比如,在模型測(cè)試過(guò)程當(dāng)中,偶爾會(huì)出現(xiàn)一些翻譯得風(fēng)馬牛不相及的句子,這給緊張的科研過(guò)程帶來(lái)了歡樂(lè)。
金山做 NLP 嚴(yán)格遵守并保護(hù)用戶隱私
談到在金山做 NLP 的難點(diǎn),李博士認(rèn)為,目前業(yè)界的難點(diǎn)是共通的,如句子的理解和生成,以及最基礎(chǔ)的分詞、詞性標(biāo)注。但具體到公司,由于各家研究側(cè)重點(diǎn)不盡相同,所以面對(duì)的難點(diǎn)也都是有區(qū)別的。
對(duì)金山來(lái)說(shuō),目前還存在許多技術(shù)難題需要解決。例如,最基本分詞詞性標(biāo)注 NLP,目前對(duì)底層的技術(shù)還沒(méi)有完全攻克,準(zhǔn)確率大概才百分之九十幾,還不能夠達(dá)到讓用戶滿意的準(zhǔn)確率。除了這些技術(shù)攻關(guān)外,在應(yīng)用落地的時(shí)候,也會(huì)涉及到線上部署、用戶請(qǐng)求服務(wù)器等技術(shù)問(wèn)題。
AI Lab 一直在進(jìn)行技術(shù)上的優(yōu)化,在機(jī)器翻譯、閱讀理解、知識(shí)圖譜、內(nèi)容推薦和智能文檔等技術(shù)上的后續(xù)優(yōu)化也是目前一直在改進(jìn)的方向。除了在效率和準(zhǔn)確率上進(jìn)行提升外,還需要做一些領(lǐng)域上的突破。比如,雖然 AI Lab 在機(jī)器翻譯上已經(jīng)取得了不錯(cuò)的成果,但優(yōu)化也是無(wú)止境的。對(duì)于機(jī)器翻譯,在李博士看來(lái),要做到「信達(dá)」并不難,但是要達(dá)到「雅」的境界就特別困難。用機(jī)器翻譯技術(shù)處理公文和一般的文檔并不難,但是如果要翻譯好一些文學(xué)作品,就要達(dá)到「雅」的境界,這是非常困難的。
除了這些難點(diǎn),李博士認(rèn)為在金山做研究重要的一點(diǎn)是嚴(yán)格遵守并保護(hù)用戶隱私。他們可以承諾的是,云文檔放在金山是絕對(duì)安全的。雖然他們知道用戶數(shù)據(jù)具有重大的研究?jī)r(jià)值,但是他們的原則是,絕不碰用戶數(shù)據(jù),這也是金山的底線和信仰。
目前對(duì)數(shù)據(jù)的處理方法是,所有的數(shù)據(jù)都被分解到不同的地方,存到不同的服務(wù)器上。技術(shù)人員接觸到的數(shù)據(jù)都是經(jīng)過(guò)拆分的,并保存在不同的地方。除此之外,他們還制定了一系列的規(guī)章制度,以確保數(shù)據(jù)的安全。用戶上傳的數(shù)據(jù),任何人都不能碰。
NLP 未來(lái)可期,目前的科研環(huán)境來(lái)之不易
當(dāng)下人工智能的研究異?;鸨?,越來(lái)越多的人加入這個(gè)領(lǐng)域的研究,但在李博士看來(lái),人工智能人才尤其的 NLP 領(lǐng)域的人才依然十分稀缺,這個(gè)行業(yè)仍然處于高速發(fā)展期,還遠(yuǎn)遠(yuǎn)不到產(chǎn)生泡沫的程度。
李博士認(rèn)為,NLP 是人工智能里面最難的一個(gè)領(lǐng)域,這是因?yàn)樗婕暗饺祟惖母叩戎腔?。即便?duì)于受過(guò)良好高等教育的成年人來(lái)說(shuō),在理解語(yǔ)言的時(shí)候也可能不能正確地表達(dá)甚至?xí)a(chǎn)生歧義。除此之外,NLP 更是會(huì)涉及到復(fù)雜的文化背景,并且成長(zhǎng)經(jīng)歷不同、所處環(huán)境不同的人對(duì)語(yǔ)言的理解和使用也是不一樣的。
對(duì)于這一點(diǎn),李博士給雷鋒網(wǎng)舉例說(shuō),目前,他們正在做的事情當(dāng)中,有一項(xiàng)是根據(jù)用戶給定的一張圖片,生成一段文字來(lái)描述圖片中的場(chǎng)景。這就需要經(jīng)過(guò)大規(guī)模的學(xué)習(xí)做到,因?yàn)閳D片中的場(chǎng)景要描述清楚,都需要知道相關(guān)的背景。再比如對(duì)某些要求比較高的 PPT,需要配圖,但是可能那個(gè)圖片描述的場(chǎng)景在現(xiàn)實(shí)中并沒(méi)有發(fā)生過(guò),因此需要用人工智能理解 PPT 的文字描述,來(lái)合成所需要的圖片。所有這些,都涉及到人類的高等智慧,因此如果要做到很高的準(zhǔn)確率,是比較難的。
談到 NLP 的未來(lái),李博士非常樂(lè)觀。他認(rèn)為 NLP 技術(shù)目前還處于剛起步的階段,正處于迅速發(fā)展期。近幾年,NLP 技術(shù)才剛開(kāi)始找到大規(guī)模應(yīng)用,并有其它技術(shù)輔助支持,所以接下來(lái)的五到十年將是 NLP 的黃金發(fā)展期。
隨著科技的發(fā)展和全球商業(yè)、工業(yè)的發(fā)展,目前優(yōu)秀的成果不僅會(huì)出現(xiàn)的企業(yè),也會(huì)出現(xiàn)在高校。目前,越來(lái)越多的學(xué)者從學(xué)術(shù)界投身到工業(yè)界。李博士認(rèn)為目前學(xué)術(shù)界與工業(yè)界的研究處于齊頭并進(jìn)的狀態(tài),很多優(yōu)秀的框架都是來(lái)自于工業(yè)界。去學(xué)術(shù)界或者工業(yè)界只是個(gè)人選擇,為社會(huì)培養(yǎng)人才也是高校的責(zé)任之一。相比于學(xué)校,企業(yè)的項(xiàng)目和社會(huì)結(jié)合更加緊密。
而當(dāng)前的科研環(huán)境難能可貴,它是很多人經(jīng)過(guò)多年的努力、沉淀和積累發(fā)展起來(lái)的,這個(gè)環(huán)境需要所有人共同珍惜和維護(hù)。目前我們國(guó)家的現(xiàn)狀是,如果有哪個(gè)行業(yè)或者技術(shù)一旦變得火爆,資本和媒體就會(huì)蜂擁而至。然而,這些外部力量可能不會(huì)尊重技術(shù),甚至?xí)拐麄€(gè)行業(yè)變得浮夸,帶來(lái)不好的影響。作為一個(gè)認(rèn)真做科研的人,對(duì)于這種情況,李博士表示了他的擔(dān)憂。他希望大家能夠能夠珍惜現(xiàn)在的發(fā)展環(huán)境。
一個(gè)多小時(shí)的采訪就此結(jié)束,在采訪的過(guò)程中,可以感受到李博士對(duì)科研是真心地?zé)釔?ài)。未來(lái),金山 AILab 會(huì)帶給我們?cè)鯓拥捏@喜?讓我們拭目以待。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。