丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

蘇州大學(xué)張民教授兩小時(shí)講座精華摘錄:自然語(yǔ)言處理方法與應(yīng)用

本文作者: 奕欣 2018-08-09 16:55
導(dǎo)語(yǔ):蘇州大學(xué)特聘教授、國(guó)家杰出青年科學(xué)基金獲得者張民在2018 中國(guó)人工智能大會(huì)(CCAI 2018)做了題為《自然語(yǔ)言處理方法與應(yīng)用》的大會(huì)講座。

蘇州大學(xué)張民教授兩小時(shí)講座精華摘錄:自然語(yǔ)言處理方法與應(yīng)用

2018 中國(guó)人工智能大會(huì)(CCAI 2018)于 7 月 28 日-29 日于深圳召開(kāi)。「過(guò)去未去,未來(lái)已來(lái)」,李德毅院士在 CCAI 2018 開(kāi)幕式上對(duì)人工智能的發(fā)展寄予極高的期待,認(rèn)為未來(lái)人工智能必將給人類帶來(lái)全新的啟迪。

CAAI 副理事長(zhǎng)、中國(guó)科學(xué)院院士譚鐵牛在開(kāi)幕式致辭中同時(shí)強(qiáng)調(diào),「理性、務(wù)實(shí)」是未來(lái)人工智能的重要路線。他也希望中國(guó)人工智能大會(huì)能給與會(huì)觀眾以充實(shí)的視聽(tīng)盛宴與豐富的心得體會(huì)。

在 2018 中國(guó)人工智能大會(huì)(CCAI 2018)首日下午的專題論壇上,蘇州大學(xué)特聘教授、國(guó)家杰出青年科學(xué)基金獲得者張民做了題為《自然語(yǔ)言處理方法與應(yīng)用》的大會(huì)講座。在這場(chǎng)長(zhǎng)達(dá)兩個(gè)小時(shí)的講座上,張民教授圍繞 AI、自然語(yǔ)言及 NLP,還有相應(yīng)的方法、應(yīng)用及展望,向與會(huì)觀眾分享了自然語(yǔ)言處理的相應(yīng)研究。雷鋒網(wǎng) AI 科技評(píng)論整理了張民教授的講座概要及部分精華內(nèi)容,以饗讀者。

一、AI、自然語(yǔ)言和自然語(yǔ)言處理

從農(nóng)業(yè)社會(huì)、工業(yè)社會(huì)到信息社會(huì),從數(shù)據(jù)到信息、到知識(shí)到智能的演變,代表了人類社會(huì)的巨大進(jìn)步,展現(xiàn)了人類對(duì)于不同概念的詮釋與理解的演變:

數(shù)據(jù)可以理解為人類對(duì)主觀/客觀世界事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示;信息是具有時(shí)效性的、有一定含義的、有邏輯的、經(jīng)過(guò)加工處理的、對(duì)決策有價(jià)值的數(shù)據(jù)流,也就是加工后有邏輯的數(shù)據(jù)。而信息的豐富性決定了我們需要將它抽取、凝練為知識(shí);但擁有用知識(shí)去解決問(wèn)題的能力,才真正叫做智能。從歷史的長(zhǎng)河來(lái)看,人工智能的產(chǎn)業(yè)成熟曲線及人類的認(rèn)識(shí)體系,是在經(jīng)歷「人類要?dú)纭沟目只牛òl(fā)現(xiàn)人工智能的能力超出想象)與大呼「騙子」的頓悟(發(fā)現(xiàn)人工智能的局限性)的反復(fù)中循環(huán)提升的。在張民教授來(lái)看,這兩種極端的觀點(diǎn)都只能部分代表人工智能的觀點(diǎn)和看法,不應(yīng)以偏概全。

蘇州大學(xué)張民教授兩小時(shí)講座精華摘錄:自然語(yǔ)言處理方法與應(yīng)用

人工智能的內(nèi)涵和外延:

能夠講清楚什么是人工智能很重要。在張民教授的理解中,按照李德毅院士的觀點(diǎn),人工智能的外延包括機(jī)器人與智能系統(tǒng)。而內(nèi)涵包括如下四個(gè)層面:

? 底層是腦認(rèn)知基礎(chǔ),上層是以知識(shí)工程為核心的知識(shí)建模、獲取和推理;

? 中間有兩個(gè)同樣重要的內(nèi)容,一個(gè)是感知智能,即機(jī)器感知和模式識(shí)別;另一個(gè)是認(rèn)知智能,也就是自然語(yǔ)言處理和理解。

蘇州大學(xué)張民教授兩小時(shí)講座精華摘錄:自然語(yǔ)言處理方法與應(yīng)用

人的進(jìn)化與語(yǔ)言的關(guān)系

從感知、認(rèn)知到進(jìn)化,人為何能步入食物鏈的頂端?因?yàn)槿祟愑姓Z(yǔ)言,語(yǔ)言使人類區(qū)別于動(dòng)物。語(yǔ)言的本質(zhì)就是一套符號(hào)系統(tǒng)。從語(yǔ)言的種類來(lái)看,一個(gè)是動(dòng)物語(yǔ)言,一個(gè)是人工語(yǔ)言,再者是自然語(yǔ)言。自然語(yǔ)言是人類最重要的工具,是人類進(jìn)行溝通交流的各種表達(dá)符號(hào)。

那么自然語(yǔ)言處理的定義是什么?就是用計(jì)算機(jī)來(lái)處理人類的自然語(yǔ)言。

自然語(yǔ)言處理有三件重要的事:

1. 分析和理解;2. 生成和應(yīng)用(互動(dòng)過(guò)程);3. 動(dòng)作(執(zhí)行語(yǔ)言相對(duì)應(yīng)的內(nèi)容)。

為了更好地進(jìn)行表示、推理和學(xué)習(xí),自然語(yǔ)言處理涉及到了哪些方法?張民教授總結(jié)了如下內(nèi)容:自然語(yǔ)言處理學(xué)科自身的算法和理論,規(guī)則方法,統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法及深度學(xué)習(xí)等多種方法。

機(jī)器能理解人類的自然語(yǔ)言嗎?

從廣義角度來(lái)說(shuō),真正的自然語(yǔ)言處理從 1950 年代的機(jī)器翻譯研究開(kāi)始。但語(yǔ)言存在高度歧義、高度結(jié)構(gòu)化的特性。為何自然語(yǔ)言處理的難度如此大?張民教授認(rèn)為包括如下因素:

? 功能:語(yǔ)言是對(duì)世界的認(rèn)識(shí)和理解;

? 知識(shí):涉及到語(yǔ)言學(xué)知識(shí)、外部知識(shí)、領(lǐng)域知識(shí)甚至是常識(shí)等多種綜合知識(shí)。

? 特性:語(yǔ)言具備組合性、開(kāi)放的、動(dòng)態(tài)的、長(zhǎng)期特性等多種特性。

? 語(yǔ)用性:張民教授著重強(qiáng)調(diào)了環(huán)境、上下文、信息、意圖等各種因素對(duì)于理解語(yǔ)言的重要性和復(fù)雜性。

二、自然語(yǔ)言處理的方法

與人工智能一樣,張民教授也將自然語(yǔ)言處理劃分為外延和內(nèi)涵兩個(gè)部分。外延指的是自然語(yǔ)言處理的應(yīng)用(下一部分會(huì)重點(diǎn)說(shuō)明);內(nèi)涵則涵蓋三大內(nèi)容,包括以自然語(yǔ)言分析(分析語(yǔ)言表達(dá)的結(jié)構(gòu)和含義)、自然語(yǔ)言生成(從內(nèi)部表示生成語(yǔ)言表達(dá))和多語(yǔ)言處理等。

分詞

分詞的任務(wù)定義為:輸入一個(gè)句子,輸出一個(gè)詞語(yǔ)序列的過(guò)程。如將「嚴(yán)守一把手機(jī)關(guān)了。」輸出為「嚴(yán)守一/把/手機(jī)/關(guān)/了?!?/p>

目前的兩種主流方法包括基于離散特征的 CRF 和 BILSTM-CRF。

挑戰(zhàn)包括交叉歧義、新詞識(shí)別、領(lǐng)域移植、多源異構(gòu)數(shù)據(jù)融合及多粒度分詞等。

命名實(shí)體

現(xiàn)在的主流方法包括:

1. 規(guī)則系統(tǒng)

2. 基于機(jī)器學(xué)習(xí)的學(xué)習(xí)系統(tǒng)

目前的挑戰(zhàn)包括新領(lǐng)域舊實(shí)體類別識(shí)別、新實(shí)體類別識(shí)別等,解決辦法包括利用構(gòu)詞知識(shí)、領(lǐng)域知識(shí),使用強(qiáng)化學(xué)習(xí)、跨領(lǐng)域?qū)W習(xí)、半監(jiān)督學(xué)習(xí)、眾包、遠(yuǎn)程監(jiān)督等機(jī)器學(xué)習(xí)方法。

句法分析

句法分析的任務(wù)定義為:輸入一個(gè)句子的詞語(yǔ)序列,輸出為句子結(jié)構(gòu)表示的過(guò)程。依存句法分析輸出的是依存句法樹(shù),下面以依存句法分析為例。

目前采用的方法包括:

? 基于圖的方法,即從圖中搜索得到句法樹(shù),主要的任務(wù)在于確定每個(gè)依存弧的分值;

? 基于轉(zhuǎn)移的方法:即通過(guò)一系列移進(jìn)規(guī)約的動(dòng)作得到句法樹(shù),主要任務(wù)在于基于當(dāng)前狀態(tài),確定每個(gè)動(dòng)作的分值。

現(xiàn)在的主流做法是在上述兩者的基礎(chǔ)上加入深度學(xué)習(xí)的方法。

語(yǔ)義分析

定義是將文本轉(zhuǎn)換為可計(jì)算的知識(shí)表示。目前學(xué)術(shù)界語(yǔ)義表達(dá)方法包括:1)淺層語(yǔ)義分析;2)邏輯語(yǔ)義分析;3)抽象語(yǔ)義表示分析。

篇章分析

篇章的定義指的是一系列連續(xù)的語(yǔ)段或句子構(gòu)成的語(yǔ)言整體單位,核心問(wèn)題是篇章結(jié)構(gòu)和篇章特征,其所基于的語(yǔ)言學(xué)基本理論包括中心理論、脈絡(luò)理論、RST 等多種語(yǔ)言學(xué)基本理論。

? 基本結(jié)構(gòu)分析

篇章結(jié)構(gòu)指的是篇章內(nèi)部關(guān)系的不同結(jié)構(gòu)化表達(dá)形式,主要包括邏輯語(yǔ)言結(jié)構(gòu)、指代結(jié)構(gòu)、話題結(jié)構(gòu)、功能結(jié)構(gòu)、事件結(jié)構(gòu)等范疇。

? 基本特征的研究

包括連接性、連貫性、意圖、可接受性、信息性、情景性和跨篇章等七個(gè)基本特征。

自然語(yǔ)言生成

張民教授總結(jié)了在基于規(guī)則、基于知識(shí)的檢索及基于深度學(xué)習(xí)等三種自然語(yǔ)言生成方法的優(yōu)缺點(diǎn)對(duì)比及適用場(chǎng)景。

? 基于規(guī)則

它的一大優(yōu)勢(shì)在于具體領(lǐng)域的能做到精準(zhǔn)回答;但相應(yīng)地,在可移植性及可擴(kuò)展性上則存在不足;適用的場(chǎng)景以個(gè)人助理為主,和任務(wù)驅(qū)動(dòng)型的對(duì)話。

? 基于知識(shí)的檢索

它的優(yōu)點(diǎn)在于知識(shí)庫(kù)易于擴(kuò)充,答案沒(méi)有語(yǔ)法錯(cuò)誤;但對(duì)話連續(xù)性差,容易出現(xiàn)答非所問(wèn)的情況;適用場(chǎng)景以問(wèn)答系統(tǒng)、娛樂(lè)聊天為主。

? 基于深度學(xué)習(xí)

基于數(shù)據(jù)驅(qū)動(dòng)的方法能夠省去顯示語(yǔ)言理解等過(guò)程,但需要大量語(yǔ)料支持;適用場(chǎng)景以虛擬影像、智能聊天機(jī)器人為主的有豐富領(lǐng)域語(yǔ)料的場(chǎng)景。

三、自然語(yǔ)言處理的應(yīng)用

自然語(yǔ)言處理應(yīng)用包括自然語(yǔ)言處理本身的直接應(yīng)用和自然語(yǔ)言處理加行業(yè)的應(yīng)用。直接應(yīng)用包括,問(wèn)答、對(duì)話、機(jī)器翻譯、自動(dòng)文摘、機(jī)器寫(xiě)作、閱讀理解、信息抽取、情感分析等;同時(shí),自然語(yǔ)言處理在各個(gè)行業(yè)中都有越來(lái)越廣泛的應(yīng)用,包括教育、醫(yī)療、司法、金融、旅游、國(guó)防、公共安全、科技、廣告、文化、出版各行各業(yè)。

1. 情感和情緒分析

在業(yè)界研究和應(yīng)用,情感一般包括正面、負(fù)面和中性,而情緒一般表現(xiàn)為喜、怒、哀、樂(lè)、驚、恐、思等。情緒和情感都是人對(duì)客觀事物所持的態(tài)度體驗(yàn),只是情緒更傾向于個(gè)體基本需求欲望上的態(tài)度體驗(yàn),而情感則更傾向于社會(huì)需求欲望上的態(tài)度體驗(yàn)。情感和情緒分析包括問(wèn)題驅(qū)動(dòng)和模型驅(qū)動(dòng)兩個(gè)方面,在工業(yè)界和學(xué)術(shù)界都已經(jīng)有著廣泛的應(yīng)用和研究。

2. 問(wèn)答

智能問(wèn)答主要有三方面的要求:一是理解人類語(yǔ)言的內(nèi)涵;二是推敲知識(shí)獲取的意圖;三是挖掘精確貼切的知識(shí)。

相應(yīng)地,問(wèn)答系統(tǒng)需要解決三個(gè)問(wèn)題:

1. 問(wèn)題分類、分析和理解(一階邏輯、二階邏輯)

2. 答案的匹配、檢索

3. 答案生成

問(wèn)答的四個(gè)難點(diǎn)及解決方法

1)多源異構(gòu)大數(shù)據(jù)背景下開(kāi)放域問(wèn)答的瓶頸。在效率與覆蓋率的權(quán)衡下,數(shù)據(jù)大小與知識(shí)占比的關(guān)系是每個(gè)研究者需要考慮的問(wèn)題;而結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的混雜,導(dǎo)致知識(shí)挖掘與存儲(chǔ)存在相應(yīng)的難點(diǎn);此外,數(shù)據(jù)時(shí)效性的變化也給新舊知識(shí)的應(yīng)用帶來(lái)了挑戰(zhàn)。

以往是用 IR 或 RC 的方法,但目前流行采用對(duì)檢索所得的多個(gè)段落排序,也就是在 IR 和 RC 中加入了排序的操作,進(jìn)而進(jìn)行面向多段落的提取/生成答案。

2)深度語(yǔ)義理解的問(wèn)答技術(shù)。以 Watson 為代表的系統(tǒng)采用的是抽取與置信度計(jì)算的方法;目前則是閱讀理解抽取/生成式方法推動(dòng)了技術(shù)發(fā)展。

3)知識(shí)庫(kù)與知識(shí)圖譜。以往的知識(shí)庫(kù)存在可靠性、包容性低,存在通用性不高的問(wèn)題,目前研究者們更多考慮用當(dāng)下熱門(mén)問(wèn)題自動(dòng)生成來(lái)實(shí)現(xiàn)知識(shí)圖譜的自動(dòng)更新和擴(kuò)展。

4)多模態(tài)場(chǎng)景下的問(wèn)答。問(wèn)題的對(duì)象往往潛藏于多媒體,且答案的判斷需要參考其它媒體的數(shù)據(jù)資源。目前出現(xiàn)了以語(yǔ)言處理 RNN 與圖像處理的 CNN 的有機(jī)結(jié)合方法,實(shí)現(xiàn)跨媒體的特征共享、獨(dú)立和抗依賴。

對(duì)話

根據(jù)應(yīng)用場(chǎng)景的不同,可分為開(kāi)放域及封閉域?qū)υ捪到y(tǒng)。高準(zhǔn)確率的上下文篇章建模、對(duì)話狀態(tài)轉(zhuǎn)移模型和領(lǐng)域知識(shí)建模是目前對(duì)話亟待解決的問(wèn)題。

知識(shí)圖譜

包括知識(shí)建模、知識(shí)圖譜構(gòu)建、知識(shí)融合、知識(shí)推理計(jì)算以及知識(shí)賦能等主要任務(wù)。知識(shí)圖譜構(gòu)建是目前學(xué)術(shù)界和產(chǎn)業(yè)界研究熱點(diǎn),包括實(shí)體及其屬性識(shí)別、事件抽取、實(shí)體事件關(guān)系抽取、概念實(shí)例化和規(guī)則學(xué)習(xí)等。

機(jī)器翻譯

機(jī)器翻譯目前已經(jīng)取得較大進(jìn)展,張民教授展望了未來(lái)機(jī)器翻譯可以從如下領(lǐng)域做發(fā)展:

知識(shí)建模和翻譯引擎,從詞序列到語(yǔ)義到知識(shí),利用知識(shí)圖譜和各類知識(shí)(語(yǔ)言學(xué)知識(shí)、領(lǐng)域知識(shí)、常識(shí)知識(shí)等)進(jìn)一步延伸機(jī)器翻譯的邊界;

研究新的翻譯模型,從廣度(篇章)和深度(深度理解)進(jìn)一步推進(jìn)機(jī)器翻譯的理解能力。此外,還需要適應(yīng)產(chǎn)業(yè)化的需求和國(guó)家戰(zhàn)略需求。

四、AI 時(shí)代的自然語(yǔ)言處理

張民教授告訴雷鋒網(wǎng) (公眾號(hào):雷鋒網(wǎng)) AI 科技評(píng)論,目前的自然語(yǔ)言處理發(fā)展處于歷史上最好的時(shí)機(jī)。早在 90 年代,他們團(tuán)隊(duì)就嘗試做過(guò)自然語(yǔ)言處理的商業(yè)化應(yīng)用,但因?yàn)榧夹g(shù)的局限性,最終并沒(méi)能將商業(yè)模型成功落地?!冈缙鸬镍B(niǎo)兒有蟲(chóng)吃,但起得太早,天沒(méi)有亮就餓死了?!箯埫窠淌诘那猩眢w會(huì)讓他意識(shí)到,技術(shù)的進(jìn)步,加上產(chǎn)業(yè)的需求和落地,讓自然語(yǔ)言處理到了今天才迎來(lái)了新的春天。

同樣地,張民教授在講座中也提到了自然語(yǔ)言處理于 AI 時(shí)代的三個(gè)基本問(wèn)題,一個(gè)是表示;一個(gè)是搜索、推理,還有一個(gè)是學(xué)習(xí)。

? 從底層來(lái)看,包括 NLP 詞法、句法、語(yǔ)義到篇章的 NLP 基礎(chǔ)研究和核心技術(shù);

? 從應(yīng)用研究來(lái)看,包括情感分析、信息抽取、對(duì)話系統(tǒng)、閱讀理解、信息檢索、問(wèn)答系統(tǒng)、知識(shí)圖譜、機(jī)器翻譯等;

? 從上層來(lái)看,則是相應(yīng)的平臺(tái)、系統(tǒng)和應(yīng)用。

以上這些也是張民教授團(tuán)隊(duì)研究工作的重點(diǎn)。

張民教授對(duì)雷鋒網(wǎng) AI 科技評(píng)論表示,從數(shù)據(jù)、信息到知識(shí)和智能,未來(lái)的學(xué)科邊界與知識(shí)智能結(jié)合會(huì)進(jìn)一步融合,并在可解釋性、小數(shù)據(jù)、知識(shí)賦能等亟待解決和探討的問(wèn)題上進(jìn)一步延伸;與此同時(shí),注重科學(xué)問(wèn)題的凝練,定義學(xué)科研究規(guī)范和研究框架,重視產(chǎn)學(xué)研的結(jié)合與交融,這也是他寄予自然語(yǔ)言處理在 AI 時(shí)代這個(gè)「歷史上發(fā)展的最好時(shí)期」的期待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

蘇州大學(xué)張民教授兩小時(shí)講座精華摘錄:自然語(yǔ)言處理方法與應(yīng)用

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)