0
雷鋒網(wǎng) AI 科技評論按:2019 年 7 月 1 日,清華大學(xué)人工智能研究院自然語言處理與社會人文計算研究中心成立儀式暨學(xué)術(shù)報告與開元成功發(fā)布會在清華大學(xué) FIT 樓舉行。這是繼知識智能研究中心、聽覺智能研究中心、基礎(chǔ)理論研究中心、智能機(jī)器人研究中心、智能人機(jī)交互研究中心、智能信息獲取研究中心、視覺智能研究中心之后成立的第八個研究中心。清華大學(xué)副校長、清華大學(xué)人工智能研究院管委會主任尤政院士,清華大學(xué)人工智能研究院院長張鈸院士出席成立儀式并共同為中心揭牌。清華大學(xué)人工智能研究院院長助理朱軍教授主持了成立儀式。
尤政院士與張鈸院士為中心揭牌
尤政院士在致辭中指出,自然語言處理一直以來都是計算機(jī)科學(xué)領(lǐng)域的一個重要方向,也被稱為「人工智能皇冠上的明珠」,是人工智能技術(shù)當(dāng)下和未來發(fā)展的戰(zhàn)略制高點。而清華大學(xué)作為國內(nèi)最早開展自然語言處理的單位之一,經(jīng)過四十年的不懈努力,已經(jīng)發(fā)展成國內(nèi)外自然語言處理研究的一方重鎮(zhèn)。因此,中心的成立對于推動清華大學(xué)人工智能的深入發(fā)展具有十分重要的意義。
將自然語言處理與社會科學(xué)及人文科學(xué)相結(jié)合,具有大跨度學(xué)科交叉的性質(zhì)。這既是人工智能研究本身的積極拓展,也是對傳統(tǒng)學(xué)科在人工智能時代的守正出新。希望中心能夠凝聚清華自然語言處理研究力量,加強(qiáng)與人文社科學(xué)科的交叉合作,開展具有世界水平的自然語言處理基礎(chǔ)理論研究和關(guān)鍵技術(shù)創(chuàng)新,服務(wù)于清華與國家的人工智能發(fā)展戰(zhàn)略。
尤政院士致辭
張鈸院士代表清華大學(xué)人工智能研究院致辭。他指出語言是人類智能的重要標(biāo)志,機(jī)器自然語言理解是人工智能的終極目標(biāo)。清華大學(xué)在自然語言處理方面有著深厚的研究積淀,1978 年成立人工智能與智能控制教研組時,自然語言處理就是其中的重要研究方向之一,在黃昌寧教授領(lǐng)導(dǎo)下迅速發(fā)展成為國內(nèi)領(lǐng)軍的研究單位。
新成立的中心將致力于實現(xiàn)自然語言處理與人文社科的深度融合,不僅僅是將人工智能技術(shù)融入人文社科領(lǐng)域,更需要從語言、社會學(xué)、人文學(xué)等人文社科的多個角度來反觀人類智能的本質(zhì),這是研究院人工智能基礎(chǔ)研究的重要組成部分。希望中心再接再厲,在自然語言處理與社會學(xué)、人文學(xué)的交叉研究上形成特色,引領(lǐng)我國自然語言處理和社會人文計算研究領(lǐng)域的發(fā)展。
張鈸院士致辭
致辭結(jié)束后,尤政院士與張鈸院士共同為自然語言處理與社會人文計算研究中心揭牌,并向清華大學(xué)人工智能研究院常務(wù)副院長孫茂松教授頒發(fā)了中心主任聘書。研究中心同時聘請了中國中文信息學(xué)會原理事長、中國工程院院士倪光南,滑鐵盧大學(xué)講座教授、加拿大皇家科學(xué)院院士李明,微軟亞洲研究院副院長、國際計算語言學(xué)會會長周明,英國帝國理工學(xué)院數(shù)據(jù)科學(xué)研究所所長、英國皇家工程院院士郭毅可為學(xué)術(shù)顧問。
孫茂松教授被聘為中心主任
語言是人類區(qū)別于其他動物的根本標(biāo)志,沒有語言,人類的思維也就無從談起。自然語言處理旨在讓計算機(jī)掌握理解與處理人類語言的能力,體現(xiàn)了人工智能的最高任務(wù)與境界,只有當(dāng)計算機(jī)具有處理語言的能力時,機(jī)器才可能通過圖靈測試。
自然語言處理與社會人文計算研究中心將緊密圍繞人類語言所體現(xiàn)的人類智能本質(zhì),重點研究魯棒、可解釋的自然語言處理方法與技術(shù),深入探索語言理解與生成技術(shù)在社會人文計算領(lǐng)域的應(yīng)用,努力建設(shè)以中文為核心、覆蓋多種語言、從詞法到篇章的全流程自然語言處理技術(shù)框架與計算平臺,力爭產(chǎn)出以智能創(chuàng)作、智能語言學(xué)習(xí)、智能教育、智能司法為代表的、具有國際學(xué)術(shù)影響力、重大民生意義的社會人文計算研究成果。
中心的前身是清華大學(xué)計算機(jī)系自然語言處理課題組,早在上個世紀(jì)七十年代末就在黃昌寧教授的帶領(lǐng)下從事自然語言處理研究工作,是國內(nèi)開展相關(guān)研究最早、深具影響力的科研單位,同時也是中國中文信息學(xué)會(全國一級學(xué)會)計算語言學(xué)專業(yè)委員會的掛靠單位,孫茂松教授現(xiàn)任該專業(yè)委員會的主任。
中心成立儀式合影
主要研究方向
面向多粒度語言單元的統(tǒng)一語義表示框架;
從詞法到篇章的全流程自然語言處理技術(shù)體系;
數(shù)據(jù)與知識融合的多語言機(jī)器翻譯技術(shù);
知識指導(dǎo)的自然語言深度理解與智能推理技術(shù);
跨模態(tài)自然語言學(xué)習(xí)與處理結(jié)束
以自然語言處理為主要支撐手段的社會人文計算,包括智能創(chuàng)作、智能語言學(xué)習(xí)、智能教育、智能司法、智能傳播、智能音樂等。
代表性成果
1.THUMT—數(shù)據(jù)驅(qū)動的機(jī)器翻譯(已開源)
劉洋副教授向我們介紹了該開源成果 THUMT——它是一個是一個基于深度學(xué)習(xí)的機(jī)器翻譯系統(tǒng)。該系統(tǒng)使用了數(shù)據(jù)驅(qū)動的機(jī)器翻譯技術(shù),具備良好的語言無關(guān)性,在具備訓(xùn)練數(shù)據(jù)的條件下可以迅速為新語種部署系統(tǒng)。支持漢語、英語、日語、俄語、西班牙語、葡萄牙語、德語、法語、阿拉伯語、維吾爾語等關(guān)鍵語言的機(jī)器翻譯系統(tǒng),應(yīng)用于外交部、新疆公檢法等政府重要部門和搜狗、百度、捷通華聲等互聯(lián)網(wǎng)企業(yè),在大規(guī)模多語言信息深度分析處理和高效服務(wù)方面做出貢獻(xiàn),相關(guān)產(chǎn)品廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、能源、電信、交通等行業(yè)領(lǐng)域。
本次開源成果公布了在 TensorFlow 平臺上開發(fā)的新版本,采用了主流的 Transformer 模型,集成了目前最新的神經(jīng)機(jī)器翻譯技術(shù),具有訓(xùn)練速度快(支持多機(jī)多卡并行)、顯存占用低(支持單精度浮點數(shù)計算)、翻譯性能高(與國際機(jī)器翻譯開源軟件相比位居前列)、易于可視化分析(支持層級相關(guān)反饋算法)等優(yōu)點。此外還開放了 70 萬句對的句級對齊漢英平行語料庫和 4 萬句對的詞級對齊漢英平行語料庫。
項目網(wǎng)址:thumt.thunlp.org
在線翻譯系統(tǒng)網(wǎng)址:translate.thumt.cn
劉洋副教授介紹開源成果 THUMT
2.THUAIPoet—基于深度學(xué)習(xí)的中文詩歌自動生成系統(tǒng)(已開源)
矣曉沅博士生(清華大學(xué)特等獎金獲得者,獲「中國網(wǎng)事,感動 2018」第三季度網(wǎng)絡(luò)感動人物)介紹了開源成果 THUAIPoet。
THUAIPoet(九歌)是一個基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)的中文詩歌自動生成系統(tǒng),支持集句詩、絕句、藏頭詩、詞等不同體裁詩歌的在線生成。曾參加過中央電視臺 CCTV-1《機(jī)智過人》節(jié)目,與人類詩人同臺競技,取得了幾乎可與人媲美的效果。
此次成果發(fā)布開源了系統(tǒng)中的無監(jiān)督風(fēng)格詩歌生成模型 StylisticPoetry 源碼(相關(guān)論文發(fā)表于 EMNLP 2018),能夠在無標(biāo)注數(shù)據(jù)集上進(jìn)行任意數(shù)量的風(fēng)格解耦控制。此外還發(fā)布兩個人工標(biāo)注的詩歌數(shù)據(jù)集(詩歌質(zhì)量數(shù)據(jù)集和詩歌情緒數(shù)據(jù)集),以及國內(nèi)外詩歌生成相關(guān)的主要論文列表。
GitHub 網(wǎng)址:github.com/thunlp-aipoet
九歌 APP 網(wǎng)址:jiuge.thunlp.cn
矣曉沅博士生介紹開源成果 THUAIPoet
3.THUPM—知識指導(dǎo)的自然語言預(yù)訓(xùn)練模型(已開源)
2018 年起,以 BERT 為代表的模型,能夠利用大規(guī)模無標(biāo)注文本學(xué)習(xí)預(yù)訓(xùn)練模型,在自然語言處理各重要任務(wù)上均取得顯著性能提升,引起學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。實際上,文本中往往包含豐富的人類知識,如實體間復(fù)雜關(guān)系等。已有預(yù)訓(xùn)練模型無法考慮知識圖譜中的結(jié)構(gòu)化知識。中心團(tuán)隊認(rèn)為,結(jié)構(gòu)化知識可以指導(dǎo)預(yù)訓(xùn)練模型,提升模型對文本中低頻實體的理解能力。因此,提出一種融合知識圖譜實體表示和相應(yīng)預(yù)測任務(wù)的預(yù)訓(xùn)練模型(ERNIE),闡述該模型的論文已經(jīng)被 ACL 2019 錄用。
會上劉知遠(yuǎn)副教授對開源成果 OpenCLaP 作了介紹。OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是一個多領(lǐng)域中文預(yù)訓(xùn)練模型倉庫。通過在多領(lǐng)域大規(guī)模中文文本的預(yù)訓(xùn)練,這些預(yù)訓(xùn)練模型可以在下游任務(wù)上進(jìn)行微調(diào)以提高任務(wù)性能。
本次開源成果公布了基于法律文本和百度百科千萬級文檔的預(yù)訓(xùn)練模型,支持最大 512 長度的文本輸入適配多種任務(wù)需求。未來還將持續(xù)加入更多更強(qiáng)的預(yù)訓(xùn)練模型,如增加更多訓(xùn)練語料,引入大規(guī)模知識,使用全詞覆蓋策略等。
GitHub 網(wǎng)址:github.com/thunlp/OpenCLaP
項目網(wǎng)址:zoo.thunlp.org
劉知遠(yuǎn)副教授介紹開源成果 OpenCLaP
4. 融合大規(guī)模知識的中文語義表示學(xué)習(xí)方法
為了實現(xiàn)面向現(xiàn)實空間、網(wǎng)絡(luò)空間和認(rèn)知空間中的互聯(lián)網(wǎng)海量文本、語言知識和世界知識等多源異質(zhì)信息的深度理解與計算,在孫茂松教授擔(dān)任首席科學(xué)家的國家重點基礎(chǔ)研究計劃項目支持下,中心團(tuán)隊提出融合大規(guī)模知識的中文語義表示學(xué)習(xí)方法體系,在融合語言知識的語言單元表示學(xué)習(xí)和世界知識表示學(xué)習(xí)方面提出多種高效算法。
在自然語言處理重要國際期刊和會議發(fā)表 40 余篇論文,被 MIT、CMU、 Google、 Facebook 等研究機(jī)構(gòu)列為代表方法,獲得引用超過 4000 次, 相關(guān)開源算法獲得近 2 萬星標(biāo)關(guān)注。
5. 大規(guī)模結(jié)構(gòu)化知識的自動獲取技術(shù)
為了從海量自由文本中自動抽取結(jié)構(gòu)化知識,支撐復(fù)雜場景下的自然語言處理的知識需求,中心團(tuán)隊面向?qū)嶓w關(guān)系抽取等關(guān)鍵知識獲取任務(wù),開展了深入技術(shù)研究和數(shù)據(jù)集合構(gòu)建。創(chuàng)造性地提出了句子級別選擇注意力機(jī)制、對抗訓(xùn)練機(jī)制等技術(shù)方案,有效緩解了遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)的噪音問題,并能夠更好地利用跨語言訓(xùn)練數(shù)據(jù)。
團(tuán)隊還面向多種挑戰(zhàn)場景構(gòu)建大規(guī)模標(biāo)注數(shù)據(jù)集合,例如面向少次學(xué)習(xí)的 FewRel 數(shù)據(jù)集,面向文檔級關(guān)系抽取的 DocRED 數(shù)據(jù)集等。相關(guān)研究成果在自然語言處理重要國際期刊和會議發(fā)表 10 余篇論文,被 MIT、CMU、UCB 等研究機(jī)構(gòu)列為代表方法。
6. 基于自然語言處理技術(shù)的法律智能
法律智能旨在利用人工智能技術(shù)輔助法律行業(yè),提升司法行政事業(yè)各環(huán)節(jié)的智能化水平,緩解案多人少矛盾,避免同案不同判現(xiàn)象,是我國推進(jìn)全面依法治國戰(zhàn)略布局的關(guān)鍵支撐技術(shù)。
中心研究團(tuán)隊深入研究智慧司法任務(wù),提出了全面的技術(shù)規(guī)范流程,提出的要素式多任務(wù)判決預(yù)測、要素判決預(yù)測、神經(jīng)網(wǎng)絡(luò)信息抽取等技術(shù),為法律智能提供了更加高效魯棒的解決方案;構(gòu)建大規(guī)模數(shù)據(jù)集用于訓(xùn)練構(gòu)建機(jī)器學(xué)習(xí)模型,組織了國內(nèi)首個法律智能挑戰(zhàn)賽,吸引國內(nèi)外超過 600 支隊伍參加,刑期預(yù)測任務(wù)準(zhǔn)確率從最初的 30% 提升至 78%,極大推動了我國法律智能研究與應(yīng)用的發(fā)展;團(tuán)隊與法學(xué)院合作開展「計算法學(xué)」碩士項目,并于 2018 年首次招生, 受到社會各界廣泛關(guān)注。
李明:第二代對話機(jī)器人
李明院士做了題為《第二代對話機(jī)器人》的特邀報告。
報告指出缺乏理解能力、缺乏學(xué)習(xí)能力、被動地「人云亦云」是第一代聊天機(jī)器人的主要缺陷,其原因在于目前的深度學(xué)習(xí)技術(shù)還不具備理解和使用人類語言所必需的概念抽象和邏輯推理能力。他認(rèn)為實現(xiàn)理解和學(xué)習(xí)是第二代聊天機(jī)器人的主要目標(biāo),機(jī)器人只有通過自動學(xué)習(xí)和社會參與才能獲得不斷地成長,從而具備更強(qiáng)的運用人類語言的能力。
李明院士做特邀報告
周明:關(guān)于神經(jīng)網(wǎng)絡(luò)自然語言處理的思考
周明博士做了題為《關(guān)于神經(jīng)網(wǎng)絡(luò)自然語言處理的思考》的特邀報告。
報告對基于神經(jīng)網(wǎng)絡(luò)的自然語言處理的研究進(jìn)展進(jìn)行了系統(tǒng)地回顧與總結(jié),指出自然語言處理目前面臨著深度學(xué)習(xí)計算成本高昂、大規(guī)模標(biāo)注數(shù)據(jù)稀缺、難以實現(xiàn)真正的理解與推理等關(guān)鍵挑戰(zhàn)。他認(rèn)為未來應(yīng)當(dāng)從計算能力、數(shù)據(jù)資源、模型算法、系統(tǒng)應(yīng)用、人才培養(yǎng)、交叉合作等六個方面進(jìn)一步推動自然語言處理的發(fā)展。
周明博士做特邀報告
雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。