丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

專訪金山 AILab 實驗室負(fù)責(zé)人李長亮博士:在金山做 NLP 最重要的是保護(hù)用戶隱私

本文作者: skura 編輯:汪思穎 2019-03-25 11:17
導(dǎo)語:金山 AILab 布局 NLP 賽道,目前團(tuán)隊已取得了多項研究成果。

雷鋒網(wǎng) AI 科技評論按,2018 年年底,在 2018 AI Challenger「英中文本機(jī)器翻譯」賽道上,金山 AI Lab 以極大的比分優(yōu)勢一舉奪冠。這對成立不到兩年的金山 AI Lab 來說,意義重大。它不僅是對團(tuán)隊此前幾個月努力的認(rèn)可,也證明了金山在機(jī)器翻譯領(lǐng)域的技術(shù)優(yōu)勢。

作為一家低調(diào)的公司,鮮少見到外界對金山 AI Lab 的報導(dǎo)。近日,雷鋒網(wǎng)采訪了金山 AI Lab 實驗室主任李長亮博士,就 AI Lab 的研究工作和發(fā)展進(jìn)行了探討。

初見李博士,是 18 年年底在金山的一次媒體交流會上。當(dāng)時,李博士戴著眼鏡,講話時溫和而有耐心,身上散發(fā)著濃濃的學(xué)術(shù)氣質(zhì),給雷鋒網(wǎng)留下了深刻的印象。本次采訪再見李博士,在一個多小時的交流過程中,雷鋒網(wǎng)被李博士淵博的學(xué)識、對科研的熱愛深深折服。

專訪金山 AILab 實驗室負(fù)責(zé)人李長亮博士:在金山做 NLP 最重要的是保護(hù)用戶隱私

金山集團(tuán)AI Lab實驗室主任李長亮

李長亮,現(xiàn)任金山集團(tuán) AI Lab 實驗室主任,畢業(yè)于中國科學(xué)院自動化研究所,從事人工智能與自然語言處理研究,發(fā)表國際會議論文二十余篇,申請國家發(fā)明專利二十余項,主持多項重大課題,多次在國際競賽中獲得冠軍,先后入選中文信息學(xué)會青年工作委員會委員、語言與知識計算專業(yè)委員會委員、社會媒體處理專業(yè)委員會委員、人工智能學(xué)會自然語言理解專業(yè)委員會委員等等。

順應(yīng)時代大勢,成立 AI Lab

2017 年 5 月,順應(yīng)國家大勢和企業(yè)發(fā)展的需求,金山集團(tuán)成立 AI Lab,由金山副總裁姚冬直接分管。

AI Lab 的定位是輔助金山集團(tuán)的四個子公司——金山辦公、西山居、獵豹移動和金山云進(jìn)行業(yè)務(wù)上的落地。據(jù)李博士透露,AI Lab 主要對金山辦公 WPS 提供技術(shù)上的輔助支持,接下來,團(tuán)隊還會和金山云進(jìn)行一些深度合作。

目前,金山 AI Lab 主攻 NLP 賽道,涵蓋圖像、文本、語音三大方向,主要研究內(nèi)容分為知識圖譜、機(jī)器翻譯、內(nèi)容推薦和智能校對等。研究項目主要分為兩類,一類是專注于落地的項目,如機(jī)器翻譯、智能校對等;另一類是專注于基礎(chǔ)服務(wù)的項目,例如知識圖譜,可以對這些直接落地的項目提供長期的輔助研究。

成立一年多以來,團(tuán)隊碩果累累,在多個研究方向上都取得了很大的突破,如知識圖譜、機(jī)器翻譯等。在知識圖譜領(lǐng)域,2018 年金山 AI Lab 支援 WPS 智能公文寫作項目,構(gòu)建了國內(nèi)第一個黨政知識圖譜。但進(jìn)展最大的要數(shù)機(jī)器翻譯領(lǐng)域。過去一年,團(tuán)隊在機(jī)器翻譯技術(shù)方面創(chuàng)新出層次注意力機(jī)制、高斯搜索等獨特算法,并在工程細(xì)節(jié)、特征提取等方面積累了豐富的經(jīng)驗。

團(tuán)隊還有很多新布局的研究方向,閱讀理解、智能文檔、內(nèi)容推薦、語音合成、語音識別等等。這些都是根據(jù)用戶需求而提出的研究。比如語音識別和合成,雖然金山有大量的文檔,但是對于某些特殊的群體(如老人)或者在特殊的環(huán)境(如晚上睡覺前)下,有很多用戶希望聽到文檔的內(nèi)容而不是用眼睛去看。語音合成技術(shù)也是用在文檔上,可以選擇成熟男聲、優(yōu)美女聲童聲或者方言等,滿足不同用戶的需求。

AI Lab 最核心的優(yōu)勢是人才和數(shù)據(jù)

作為一家成立三十多年的大公司,金山在很多方面都有著自己獨特的優(yōu)勢。在李博士看來,金山 AI Lab 有兩大核心優(yōu)勢。

第一個核心優(yōu)勢是人才。目前,金山 AI Lab 不僅有五十多位專業(yè)的 NLP 人才,還有專業(yè)的數(shù)據(jù)標(biāo)注團(tuán)隊。近年來,隨著算法的進(jìn)步、硬件的發(fā)展、大數(shù)據(jù)和互聯(lián)網(wǎng)的進(jìn)步,人工智能技術(shù)迎來大爆發(fā)。經(jīng)過一段時間的發(fā)展,NLP 技術(shù)證明了它落地的可能性,但人工智能尤其是 NLP 技術(shù)的發(fā)展幾經(jīng)起落,學(xué)術(shù)界對人才的培養(yǎng)還沒有跟上來。目前,NLP 人才尤其短缺,人才是 AI Lab 最核心的競爭力之一。

金山 AI Lab 的第二個優(yōu)勢是數(shù)據(jù)。金山辦公作為一家專注于文檔處理的公司,在文檔數(shù)據(jù)量方面擁有較大優(yōu)勢,每天由 WPS Office 創(chuàng)建編輯文檔達(dá) 5 億,累計存儲文件 10PB。金山辦公用戶共享的海量數(shù)據(jù)對 AI Lab 研究 NLP 技術(shù)提供了絕對的優(yōu)勢。

作為 AI Lab 的負(fù)責(zé)人,李博士平時的工作除了科研任務(wù)以及業(yè)務(wù)上的對接之外,還要管理整個團(tuán)隊,負(fù)責(zé)人才的招聘和培養(yǎng)。談到對人才的培養(yǎng),他認(rèn)為最重要的一點是,讓合適的人在自己感興趣的領(lǐng)域里面發(fā)揮最大的價值。基于這一理念,團(tuán)隊成員的工作會參考每個人的興趣不定期進(jìn)行一定程度的優(yōu)化調(diào)整。

專訪金山 AILab 實驗室負(fù)責(zé)人李長亮博士:在金山做 NLP 最重要的是保護(hù)用戶隱私

金山AI Lab團(tuán)隊合影

參加 2018 AI Challenger「英中文本機(jī)器翻譯」比賽對團(tuán)隊來說是一次非常難忘的一個經(jīng)歷,在準(zhǔn)備比賽的一個多月的時間里,每個人都處于戰(zhàn)斗狀態(tài),每天廢寢忘食地研究到晚上十二點以后,才會陸續(xù)有人離開公司。這個過程不僅讓他們對機(jī)器翻譯這個領(lǐng)域有了更加深刻的理解,而且整個團(tuán)隊的氛圍得到了很好的提升,團(tuán)隊之間的協(xié)作更加默契。研究的過程雖然辛苦,但是也往往會發(fā)生一些趣事。比如,在模型測試過程當(dāng)中,偶爾會出現(xiàn)一些翻譯得風(fēng)馬牛不相及的句子,這給緊張的科研過程帶來了歡樂。

金山做 NLP 嚴(yán)格遵守并保護(hù)用戶隱私

談到在金山做 NLP 的難點,李博士認(rèn)為,目前業(yè)界的難點是共通的,如句子的理解和生成,以及最基礎(chǔ)的分詞、詞性標(biāo)注。但具體到公司,由于各家研究側(cè)重點不盡相同,所以面對的難點也都是有區(qū)別的。

對金山來說,目前還存在許多技術(shù)難題需要解決。例如,最基本分詞詞性標(biāo)注 NLP,目前對底層的技術(shù)還沒有完全攻克,準(zhǔn)確率大概才百分之九十幾,還不能夠達(dá)到讓用戶滿意的準(zhǔn)確率。除了這些技術(shù)攻關(guān)外,在應(yīng)用落地的時候,也會涉及到線上部署、用戶請求服務(wù)器等技術(shù)問題。

AI Lab 一直在進(jìn)行技術(shù)上的優(yōu)化,在機(jī)器翻譯、閱讀理解、知識圖譜、內(nèi)容推薦和智能文檔等技術(shù)上的后續(xù)優(yōu)化也是目前一直在改進(jìn)的方向。除了在效率和準(zhǔn)確率上進(jìn)行提升外,還需要做一些領(lǐng)域上的突破。比如,雖然 AI Lab 在機(jī)器翻譯上已經(jīng)取得了不錯的成果,但優(yōu)化也是無止境的。對于機(jī)器翻譯,在李博士看來,要做到「信達(dá)」并不難,但是要達(dá)到「雅」的境界就特別困難。用機(jī)器翻譯技術(shù)處理公文和一般的文檔并不難,但是如果要翻譯好一些文學(xué)作品,就要達(dá)到「雅」的境界,這是非常困難的。

除了這些難點,李博士認(rèn)為在金山做研究重要的一點是嚴(yán)格遵守并保護(hù)用戶隱私。他們可以承諾的是,云文檔放在金山是絕對安全的。雖然他們知道用戶數(shù)據(jù)具有重大的研究價值,但是他們的原則是,絕不碰用戶數(shù)據(jù),這也是金山的底線和信仰。

目前對數(shù)據(jù)的處理方法是,所有的數(shù)據(jù)都被分解到不同的地方,存到不同的服務(wù)器上。技術(shù)人員接觸到的數(shù)據(jù)都是經(jīng)過拆分的,并保存在不同的地方。除此之外,他們還制定了一系列的規(guī)章制度,以確保數(shù)據(jù)的安全。用戶上傳的數(shù)據(jù),任何人都不能碰。

NLP 未來可期,目前的科研環(huán)境來之不易

當(dāng)下人工智能的研究異常火爆,越來越多的人加入這個領(lǐng)域的研究,但在李博士看來,人工智能人才尤其的 NLP 領(lǐng)域的人才依然十分稀缺,這個行業(yè)仍然處于高速發(fā)展期,還遠(yuǎn)遠(yuǎn)不到產(chǎn)生泡沫的程度。

李博士認(rèn)為,NLP 是人工智能里面最難的一個領(lǐng)域,這是因為它涉及到人類的高等智慧。即便對于受過良好高等教育的成年人來說,在理解語言的時候也可能不能正確地表達(dá)甚至?xí)a(chǎn)生歧義。除此之外,NLP 更是會涉及到復(fù)雜的文化背景,并且成長經(jīng)歷不同、所處環(huán)境不同的人對語言的理解和使用也是不一樣的。

對于這一點,李博士給雷鋒網(wǎng)舉例說,目前,他們正在做的事情當(dāng)中,有一項是根據(jù)用戶給定的一張圖片,生成一段文字來描述圖片中的場景。這就需要經(jīng)過大規(guī)模的學(xué)習(xí)做到,因為圖片中的場景要描述清楚,都需要知道相關(guān)的背景。再比如對某些要求比較高的 PPT,需要配圖,但是可能那個圖片描述的場景在現(xiàn)實中并沒有發(fā)生過,因此需要用人工智能理解 PPT 的文字描述,來合成所需要的圖片。所有這些,都涉及到人類的高等智慧,因此如果要做到很高的準(zhǔn)確率,是比較難的。

談到 NLP 的未來,李博士非常樂觀。他認(rèn)為 NLP 技術(shù)目前還處于剛起步的階段,正處于迅速發(fā)展期。近幾年,NLP 技術(shù)才剛開始找到大規(guī)模應(yīng)用,并有其它技術(shù)輔助支持,所以接下來的五到十年將是 NLP 的黃金發(fā)展期。

隨著科技的發(fā)展和全球商業(yè)、工業(yè)的發(fā)展,目前優(yōu)秀的成果不僅會出現(xiàn)的企業(yè),也會出現(xiàn)在高校。目前,越來越多的學(xué)者從學(xué)術(shù)界投身到工業(yè)界。李博士認(rèn)為目前學(xué)術(shù)界與工業(yè)界的研究處于齊頭并進(jìn)的狀態(tài),很多優(yōu)秀的框架都是來自于工業(yè)界。去學(xué)術(shù)界或者工業(yè)界只是個人選擇,為社會培養(yǎng)人才也是高校的責(zé)任之一。相比于學(xué)校,企業(yè)的項目和社會結(jié)合更加緊密。

而當(dāng)前的科研環(huán)境難能可貴,它是很多人經(jīng)過多年的努力、沉淀和積累發(fā)展起來的,這個環(huán)境需要所有人共同珍惜和維護(hù)。目前我們國家的現(xiàn)狀是,如果有哪個行業(yè)或者技術(shù)一旦變得火爆,資本和媒體就會蜂擁而至。然而,這些外部力量可能不會尊重技術(shù),甚至?xí)拐麄€行業(yè)變得浮夸,帶來不好的影響。作為一個認(rèn)真做科研的人,對于這種情況,李博士表示了他的擔(dān)憂。他希望大家能夠能夠珍惜現(xiàn)在的發(fā)展環(huán)境。

一個多小時的采訪就此結(jié)束,在采訪的過程中,可以感受到李博士對科研是真心地?zé)釔?。未來,金?AILab 會帶給我們怎樣的驚喜?讓我們拭目以待。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪金山 AILab 實驗室負(fù)責(zé)人李長亮博士:在金山做 NLP 最重要的是保護(hù)用戶隱私

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說