0
本文作者: 恒亮 | 2017-03-22 09:39 |
在大數(shù)據(jù)計(jì)算和深度神經(jīng)網(wǎng)絡(luò)等技術(shù)的推動(dòng)下,NLP 正在不斷趨于成熟,并在人們的生產(chǎn)生活中發(fā)揮著越來(lái)越重要的作用:從搜索引擎、拼寫(xiě)檢查、關(guān)鍵詞提取,到文本分類、情感分析、機(jī)器翻譯和對(duì)話機(jī)器人等,幾乎隨處都能看到 NLP,隨時(shí)都能享受 NLP 帶來(lái)的便捷。
但在誕生之初,NLP 的發(fā)展其實(shí)并不順利。
業(yè)內(nèi)普遍認(rèn)可的 NLP 起源大約可以追溯到 1954 年。當(dāng)時(shí),IBM 和喬治城大學(xué)(Georgetown University)聯(lián)合發(fā)起了一次著名試驗(yàn):Georgetown–IBM Experiment,科學(xué)家們想通過(guò)計(jì)算機(jī)自動(dòng)將 60 個(gè)俄語(yǔ)文本翻譯成英語(yǔ)。當(dāng)時(shí)一個(gè)普遍認(rèn)知是:機(jī)器翻譯只是簡(jiǎn)單的詞匯列表遍歷問(wèn)題,在三到五年之內(nèi)就能完美解決。于是各研發(fā)機(jī)構(gòu)投入了大量的研發(fā)資源。
然而,事情的進(jìn)展并不順利。在此后長(zhǎng)達(dá) 30 多年的時(shí)間里,NLP 的研究成果幾乎乏善可陳。唯一值得一提的可能就是 1972 年美國(guó)麻省理工學(xué)院開(kāi)發(fā)的一個(gè)用自然語(yǔ)言指揮機(jī)器人的人機(jī)對(duì)話系統(tǒng) SHRDLU,以及 1964-1966 年間開(kāi)發(fā)的世界上第一個(gè)真正意義上的聊天機(jī)器人系統(tǒng):ELIZA。但在當(dāng)時(shí),SHRDLU 和 ELIZA 的語(yǔ)言處理能力都非常簡(jiǎn)單,例如 SHRDLU 只存儲(chǔ)了 200 個(gè)單詞,而 ELIZA 所做的也僅僅是用符合語(yǔ)法的方式將問(wèn)題復(fù)述一遍,毫無(wú)“智能”可言。
這一時(shí)期的研究者們進(jìn)行自然語(yǔ)言處理的主要思路是按照短語(yǔ)結(jié)構(gòu)語(yǔ)法(Phrase Structure Grammar,PSG)的理論進(jìn)行分析,他們認(rèn)為語(yǔ)法規(guī)則的數(shù)目是有限的,但據(jù)此生成的語(yǔ)句的數(shù)目卻是無(wú)限的,試圖通過(guò)語(yǔ)言學(xué)家窮舉的方法列出所有語(yǔ)法規(guī)則,再根據(jù)這些語(yǔ)法規(guī)則展開(kāi)計(jì)算機(jī)的模式化分析。
這種思路有兩大致命缺陷:
● 忽略了自然語(yǔ)言的歧義性。例如同樣是動(dòng)詞加名詞的組合,“打擊力度”就是名詞短語(yǔ),但“打擊盜版”就是動(dòng)詞短語(yǔ);
● 語(yǔ)法規(guī)則實(shí)際上是無(wú)法窮舉的。人們發(fā)現(xiàn),雖然日常對(duì)話中最長(zhǎng)使用的語(yǔ)法規(guī)則只有幾十條,它們出現(xiàn)的頻率也的確很高,但隨著語(yǔ)料庫(kù)規(guī)模的擴(kuò)大,新的規(guī)則仍然不斷出現(xiàn)。
直到 1980 年代以后,開(kāi)始有學(xué)者將機(jī)器學(xué)習(xí)算法引入 NLP,從此引發(fā)了一場(chǎng) NLP 的革命。
人們開(kāi)始認(rèn)識(shí)到 PSG 分析法的缺陷,認(rèn)識(shí)到依靠人類語(yǔ)言學(xué)家人工歸納總結(jié)所有語(yǔ)法規(guī)則的方法走不下去。于是逐漸出現(xiàn)了依靠復(fù)雜特征集(Complex Feature Set)描述的語(yǔ)法約束,出現(xiàn)了依靠大數(shù)據(jù)和數(shù)理統(tǒng)計(jì)的統(tǒng)計(jì)學(xué) NLP 分析模型,以及針對(duì)統(tǒng)計(jì)模型無(wú)法處理的歧義現(xiàn)象出現(xiàn)的“詞匯主義”(Lexicalism)。研究者們認(rèn)識(shí)到在詞匯層采用顆粒度更小的語(yǔ)言描述單元的必要性,于是開(kāi)始將自然語(yǔ)言描述的主體從語(yǔ)法規(guī)則層轉(zhuǎn)移到了詞匯層。目前,詞匯知識(shí)庫(kù)的構(gòu)建已經(jīng)成為了業(yè)界普遍關(guān)注的問(wèn)題。美國(guó)的 WordNet、FrameNet 以及我國(guó)的各種語(yǔ)法知識(shí)庫(kù)和語(yǔ)義知識(shí)庫(kù),都反映了這種強(qiáng)烈的“詞匯主義”的傾向。
隨著技術(shù)的不斷進(jìn)步,NLP 通過(guò)不斷地從數(shù)學(xué)、生物神經(jīng)科學(xué)以及統(tǒng)計(jì)語(yǔ)言學(xué)等交叉學(xué)科中吸收營(yíng)養(yǎng)來(lái)豐富自己,目前已經(jīng)取得了長(zhǎng)足的進(jìn)步。雖然在自然對(duì)話等一般場(chǎng)景中的表現(xiàn)還不盡如人意,但在一些特定領(lǐng)域,例如語(yǔ)音識(shí)別(微軟 / IBM 語(yǔ)音識(shí)別)和機(jī)器翻譯(谷歌 GNMT 機(jī)器翻譯)等細(xì)分場(chǎng)景中,最新的 NLP 技術(shù)已經(jīng)超越了許多普通人類的表現(xiàn)。
在這種情況下,作為一名 AI 相關(guān)領(lǐng)域的研發(fā)從業(yè)者,更有必要對(duì) NLP 技術(shù)有一個(gè)全面的認(rèn)識(shí)和了解。為此,雷鋒網(wǎng)聯(lián)合國(guó)內(nèi)頂級(jí) AI 培訓(xùn)平臺(tái)“1024 MOOC 學(xué)院”,有幸邀請(qǐng)到 9 位來(lái)自阿里巴巴 iDST 數(shù)據(jù)科學(xué)與技術(shù)實(shí)驗(yàn)室的頂級(jí)專家,利用 4 月 8-9 日一個(gè)周末的時(shí)間,為大家奉上一期“NLP快速入門(mén)實(shí)戰(zhàn)特訓(xùn)班”。
如果你對(duì)人工智能了充滿熱情,如果你對(duì) NLP 充滿了好奇心和求知欲,如果你是一個(gè)不甘心被機(jī)器超越的 AI 開(kāi)發(fā)者,那么請(qǐng)不要猶豫,加入我們。本課程將系統(tǒng)涵蓋 NLP 技術(shù)中的分詞算法、語(yǔ)義理解、對(duì)話系統(tǒng)以及機(jī)器翻譯等四大版塊,重點(diǎn)介紹基礎(chǔ)理論與實(shí)戰(zhàn)應(yīng)用,幫助大家解決實(shí)戰(zhàn)過(guò)程中會(huì)遇到的技術(shù)難題。
1. 詞法分析
1、中文詞法分析的基本概念和核心問(wèn)題
2、基于馬爾科夫模型的中文詞法分析
3、基于序列標(biāo)注模型(CRF、LSTM)的中文詞法分析
4、詞法分析之工業(yè)界實(shí)踐
2. 意圖理解
意圖理解的基本概念
意圖理解的難點(diǎn)和基本方法
深度學(xué)習(xí)在意圖理解中的應(yīng)用
意圖理解在阿里產(chǎn)品中的具體實(shí)現(xiàn)
3. Slot 抽取
屬性抽取的基本概念
屬性抽取的難點(diǎn)和基本方法
深度學(xué)習(xí)在屬性抽取中的應(yīng)用
屬性抽取在阿里產(chǎn)品中的具體實(shí)現(xiàn)
4. 對(duì)話引擎
對(duì)話引擎的基本概念
對(duì)話的建模方法
應(yīng)用場(chǎng)景下對(duì)話引擎面臨的問(wèn)題
對(duì)話引擎問(wèn)題的一些解決思路
5. 智能問(wèn)答
智能問(wèn)答的基本概念和應(yīng)用場(chǎng)景介紹
智能問(wèn)答系統(tǒng)的工作原理、系統(tǒng)框架和關(guān)鍵技術(shù)
如何搭建一套智能問(wèn)答系統(tǒng)
6. 聊天引擎
聊天引擎概念和demo演示
基于檢索和基于生成的兩種聊天引擎構(gòu)建方法
工業(yè)應(yīng)用中涉及的數(shù)據(jù)、在線架構(gòu)問(wèn)題以及解決思路
7. 語(yǔ)言模型
語(yǔ)言模型的基本概念
N元文法語(yǔ)言模型
語(yǔ)言模型的評(píng)價(jià)指標(biāo)
基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型建模
8. 機(jī)器翻譯
機(jī)器翻譯的基本概念
統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的原理和工作機(jī)制
主要開(kāi)源機(jī)器翻譯系統(tǒng)
工業(yè)級(jí)機(jī)器翻譯系統(tǒng)的主要架構(gòu)、常見(jiàn)問(wèn)題和解決方案
9. 搜索引擎數(shù)據(jù)在NLP中的應(yīng)用
搜索引擎的基本概念。
搜索引擎數(shù)據(jù)的分類
每種數(shù)據(jù),我們會(huì)舉例說(shuō)明在NLP相關(guān)領(lǐng)域中的作用
10. 句法分析
句法分析的基本概念
依存句法分析的基本原理和方法
常見(jiàn)的開(kāi)源句法分析系統(tǒng)介紹
句法分析在電商場(chǎng)景工業(yè)級(jí)應(yīng)用介紹
千訣
iDST資深算法專家
陳一寧
iDST高級(jí)專家
李永彬
iDST高級(jí)算法專家
郎皓
iDST算法專家
黎檳華
iDST高級(jí)算法工程師
鮑光勝
iDST算法專家
駱衛(wèi)華
iDST資深技術(shù)專家
鄭昊
iDST高級(jí)算法工程師
吳勝蘭
iDST資深算法工程師
時(shí)間:4月1日-2日,周六周末開(kāi)課;
授課形式:線上視頻直播授課;
售價(jià):1299元;
http://m.leiphone.com/special/mooc03
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))相關(guān)閱讀:
深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?
清華大學(xué)朱小燕教授做客雷鋒網(wǎng)沙龍,分享 NLP 和人工智能的那些事兒| AAAI 2017
罹患乳腺癌的這位MIT教授,用NLP甄別患者胸前的“定時(shí)炸彈”
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。