丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

專(zhuān)訪NLP前輩黃昌寧先生,每一階段都是常人難以企及的輝煌

本文作者: camel 2018-03-31 23:10
導(dǎo)語(yǔ):大師風(fēng)范
黃昌寧先生,作為我國(guó)自然語(yǔ)言處理領(lǐng)域的先行者之一,在過(guò)去近四十年的時(shí)間里為我國(guó)自然語(yǔ)言處理的發(fā)展做出了杰出的貢獻(xiàn)。2017 年 11 月,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)在第六屆自然語(yǔ)言處理及中文計(jì)算會(huì)議(NLPCC 2017)上將首屆「CCF中文信息技術(shù)專(zhuān)委會(huì)杰出貢獻(xiàn)獎(jiǎng)」授予黃昌寧先生。

近日,雷鋒網(wǎng)有幸去黃昌寧先生家中拜訪。黃先生今年已 81 歲高齡,但仍然精神抖擻,思維十分敏捷;言談平和近人,處處透出大師風(fēng)范。在雷鋒網(wǎng)拜訪黃先生的兩個(gè)多小時(shí)里,黃先生非常和藹、健談,提出了許多極有價(jià)值的觀點(diǎn)和建議。

專(zhuān)訪NLP前輩黃昌寧先生,每一階段都是常人難以企及的輝煌

粗略來(lái)說(shuō),黃昌寧先生的人生大致可以分為兩段:45 歲前和 45 歲后。

1937 年出生于廣東的黃昌寧,在 1955 年以?xún)?yōu)異的成績(jī)考入清華大學(xué)電機(jī)系。1961 年畢業(yè)后留校任教。

文革期間,在大學(xué)里無(wú)論是教學(xué)還是科研工作都無(wú)法正常地進(jìn)行下去。隨著「四人幫」的倒臺(tái),國(guó)內(nèi)研究百?gòu)U待興。在 70 年代,黃昌寧主編了大學(xué)教材《晶體管電路》,一躍成為清華極為知名的教授,該書(shū)在國(guó)內(nèi)發(fā)行量逾百萬(wàn)冊(cè)。

1977 年清華大學(xué)設(shè)立計(jì)算機(jī)系,為了彌補(bǔ)與國(guó)際研究的差距,學(xué)校組織多名教授在全國(guó)范圍內(nèi)進(jìn)行學(xué)科調(diào)查。黃昌寧當(dāng)時(shí)根據(jù)調(diào)查結(jié)果認(rèn)為,一定要跟蹤世界科學(xué)研究的先進(jìn)方向,設(shè)立人工智能專(zhuān)業(yè)。隨后他參與了《人工智能原理》及《LISP 語(yǔ)言》的翻譯并開(kāi)設(shè)了相關(guān)課程,填補(bǔ)了當(dāng)時(shí)國(guó)內(nèi)的空白,引起了很大的反響。黃昌寧也由此開(kāi)始接觸自然語(yǔ)言處理。

上世紀(jì) 80 年代世界銀行給中國(guó)政府提供了一批貸款,資助一部分研究學(xué)者出國(guó)進(jìn)修,1982 年 45 歲的黃昌寧由此得以走出國(guó)門(mén)。

黃昌寧在耶魯大學(xué)進(jìn)行為期一年的訪問(wèn)。在此期間黃昌寧對(duì)當(dāng)時(shí)的學(xué)界巨擘美國(guó)人工智能學(xué)會(huì)會(huì)長(zhǎng)、耶魯大學(xué)計(jì)算機(jī)系系主任羅杰·尚克的工作比較感興趣,羅杰·尚克是「故事腳本多語(yǔ)言機(jī)器翻譯系統(tǒng)」的創(chuàng)始人,他主張?zhí)^(guò)句法分析直接進(jìn)入文本的語(yǔ)義理解和處理,這對(duì)句法比較松散的漢語(yǔ) NLP 似乎更有吸引力。但是黃昌寧很快就發(fā)現(xiàn)了尚克的問(wèn)題,跳過(guò)句法直接理解語(yǔ)義相當(dāng)于舍去形式而直抵內(nèi)容,他認(rèn)為這在實(shí)踐中很難實(shí)現(xiàn)。這一觀察后來(lái)也被證實(shí)是正確的,尚克本人不久也離開(kāi)耶魯去了美國(guó)西北大學(xué)從事學(xué)習(xí)研究。

1983 年學(xué)習(xí)結(jié)束后,黃昌寧按時(shí)返回國(guó)內(nèi),從此就再也沒(méi)有閑下來(lái)。這可以分為兩個(gè)階段:清華執(zhí)教階段和受聘微軟階段。

80 年代初,在國(guó)內(nèi)自然語(yǔ)言處理的研究還幾乎是個(gè)空白,黃昌寧不僅把這門(mén)學(xué)科的思想帶進(jìn)了中國(guó),還極大地促進(jìn)了 NLP 在國(guó)內(nèi)的發(fā)展。這方面的工作以 1993 年發(fā)表的論文「關(guān)于處理大規(guī)模真實(shí)文本的談話」為代表。這是國(guó)內(nèi)首篇公開(kāi)主張大數(shù)據(jù)真實(shí)文本處理的一次宣言。

其次,黃昌寧還同時(shí)挑起"七五」國(guó)家攻關(guān)項(xiàng)目「自然語(yǔ)言理解和人機(jī)接口」、國(guó)防預(yù)研項(xiàng)目「軍事文本理解技術(shù)」等。

1998 年秋,黃昌寧應(yīng)香港大學(xué)之邀,進(jìn)行了為期半年的講學(xué)。當(dāng)時(shí)微軟中國(guó)研究院剛剛成立,院長(zhǎng)李開(kāi)復(fù)博士在香港約見(jiàn)了黃昌寧,動(dòng)員他加盟微軟中國(guó)研究院。

1999 年 4 月,62 歲的黃昌寧先生在清華執(zhí)教近 40 年榮譽(yù)退休,但卻愈發(fā)地老當(dāng)益壯,開(kāi)啟了另一段輝煌。退休后的他隨即接受了微軟中國(guó)研究院的聘請(qǐng),成為當(dāng)時(shí)研究院中年齡最大的研究員(當(dāng)時(shí)李開(kāi)復(fù)院長(zhǎng)年齡最大,還不到 40 歲)。在黃昌寧的帶領(lǐng)下微軟中國(guó)研究院成立了自然語(yǔ)言計(jì)算組,其研究則幾乎涉及當(dāng)時(shí) NLP 的方方面面,如中文分詞、句法分析、機(jī)器翻譯、問(wèn)答系統(tǒng)等等,在國(guó)內(nèi)外很快就達(dá)到了頂尖水平。

在論文方面,黃昌寧所帶領(lǐng)的團(tuán)隊(duì)可謂是中國(guó) NLP 研究走向國(guó)際的先鋒。2000 年 ACL 在中國(guó)香港舉辦,當(dāng)時(shí)大會(huì)總共接收 70 篇論文,微軟亞洲研究院有 6 篇論文入選,其中 4 篇出自黃昌寧所帶領(lǐng)的團(tuán)隊(duì)。這也是國(guó)內(nèi)較早幾篇發(fā)表在國(guó)際頂會(huì)中的論文。當(dāng)然這些只是他們工作的冰山一角,其他例如隨后的 2001 年他們?cè)谟绊懸蜃硬幌掠?ACL 的《Computational Linguistics & Chinese Language Processing》期刊上又連續(xù)發(fā)表了 5 篇論文。

隨著年齡的增長(zhǎng),黃昌寧先生因眼疾及高度近視視力嚴(yán)重衰退,隨后漸漸退出微軟的管理工作,交由周明博士主管,他擔(dān)任顧問(wèn)。

黃昌寧先生對(duì)在微軟期間的工作總結(jié)道:「從成果上來(lái)講,在微軟的幾年時(shí)間里,比我在清華 40 年做的成果還要大得多?!?br/>

「賦閑」在家的黃先生并沒(méi)有過(guò)一種遛鳥(niǎo)養(yǎng)花的閑逸生活,他仍然在時(shí)刻關(guān)注著前沿的研究,并思考如何才能使我國(guó) NLP 的研究水平更上一層樓。

通過(guò)與黃昌寧先生的對(duì)話,雷鋒網(wǎng)得以了解其中的兩個(gè)側(cè)面:一,他高度肯定評(píng)測(cè)對(duì) NLP 發(fā)展的重要性,認(rèn)為評(píng)測(cè)之于NLP正如顯微鏡之于生物醫(yī)學(xué);二,中國(guó) NLP 研究若想進(jìn)入世界先進(jìn)水平,需要做好頂層設(shè)計(jì)的工作。

細(xì)看黃昌寧先生近六十年的研究生涯,從風(fēng)華年少到耄耋之年,每一階段都是一次常人難以企及的輝煌。2017 年 11 月 10 日,基于黃昌寧先生為我國(guó)自然語(yǔ)言處理的研究做出的貢獻(xiàn),中國(guó)計(jì)算機(jī)學(xué)會(huì)在第六屆自然語(yǔ)言處理及中文計(jì)算會(huì)議(NLPCC 2017)上將首屆「CCF中文信息技術(shù)專(zhuān)委會(huì)杰出貢獻(xiàn)獎(jiǎng)」授予黃昌寧先生。

專(zhuān)訪NLP前輩黃昌寧先生,每一階段都是常人難以企及的輝煌

黃昌寧教授(中)獲杰出貢獻(xiàn)獎(jiǎng)

以下為雷鋒網(wǎng)與黃先生部分對(duì)話精簡(jiǎn)。

一、觀點(diǎn)

問(wèn):從整個(gè)科學(xué)領(lǐng)域的角度來(lái)考慮,您覺(jué)得自然語(yǔ)言研究的意義是什么?

黃昌寧:有人說(shuō)自然語(yǔ)言處理是人工智能皇冠上的明珠,大概是因?yàn)檎Z(yǔ)言是人類(lèi)區(qū)別于其他高等動(dòng)物的重要標(biāo)志,是人類(lèi)智能的集中體現(xiàn),既然是這樣,把 NLP 的研究看成是科學(xué)上的重要問(wèn)題也就不奇怪了。自然語(yǔ)言研究的意義就是讓計(jì)算機(jī)能理解或處理自然語(yǔ)言,也就是讓計(jì)算機(jī)明白無(wú)誤的掌握人類(lèi)的最高智慧。

問(wèn):近幾年,中國(guó)在NLP領(lǐng)域有了快速的發(fā)展,已經(jīng)達(dá)到世界前列的水平。而您經(jīng)歷了中國(guó) NLP 近四十年從無(wú)到有,從落后到前列的變化,您如何看待這個(gè)發(fā)展呢?

黃昌寧:我覺(jué)得國(guó)內(nèi)自然語(yǔ)言處理和人工智能研究的現(xiàn)狀,是隨著改革開(kāi)放的進(jìn)展而得到逐步改善的,是一個(gè)漸進(jìn)的過(guò)程。

特別是最近幾年,有很大的變化,這主要是取決于兩個(gè)方面:一個(gè)是政府給的科研資助有了很大的提高;另外一個(gè)是研究人員的數(shù)量大幅度的增加?,F(xiàn)在國(guó)內(nèi)從事自然語(yǔ)言處理的研究者要比日本、韓國(guó)等國(guó)家多得多。所以文章的數(shù)量超過(guò)了別人也是理所當(dāng)然的。但是我一直覺(jué)得,雖然文章的數(shù)量是多了,但我們引領(lǐng)研究導(dǎo)向的論文和成果依然很少。

問(wèn):在 NLP 的研究和應(yīng)用領(lǐng)域,您覺(jué)得從國(guó)家層次上,我國(guó)需要如何進(jìn)一步布局以達(dá)到國(guó)際頂尖水平(甚?至引領(lǐng)世界 NLP 研究的發(fā)展)?

黃昌寧:政府干預(yù)科學(xué)研究的計(jì)劃是一柄雙刃劍,做得好有可能在一個(gè)時(shí)期內(nèi)提高國(guó)家的科學(xué)研究水平,做得不好也可能是瞎指揮,不是幫忙而是添亂。

這樣的例子在國(guó)內(nèi)也不是沒(méi)有的,雖然規(guī)劃制定者咨詢(xún)過(guò)一線研究人員,但畢竟他本人不是一線科研人員,所以他不可能全程跟蹤某一個(gè)項(xiàng)目的研究活動(dòng)。從國(guó)際上看,人工智能領(lǐng)域出現(xiàn)過(guò)幾次令世人驚詫的成果,比如 1997 年 IBM 深藍(lán)戰(zhàn)勝世界國(guó)際象棋冠軍卡斯帕羅夫;2011 年 2 月 IBM 的深度問(wèn)答系統(tǒng)「沃森」,在美國(guó) Jeopardy 電視競(jìng)答節(jié)目上一舉打敗該節(jié)目的兩位前冠軍;2016 年 3 月 Google 的 Alpha GO 戰(zhàn)勝人類(lèi)九段圍棋選手等。這些人工智能的項(xiàng)目都不是政府規(guī)劃出來(lái)的,而是世界頂尖研究團(tuán)隊(duì)創(chuàng)造出來(lái)的。

問(wèn):閱讀您之前發(fā)表的文章發(fā)現(xiàn),您特別強(qiáng)調(diào)在 NLP 發(fā)展中評(píng)測(cè)的重要性。那么您是如何看待評(píng)測(cè)的呢?

黃昌寧:我一直認(rèn)為,計(jì)算語(yǔ)言學(xué)是一門(mén)實(shí)證科學(xué),公開(kāi)和可重復(fù)的評(píng)測(cè),決定了這門(mén)學(xué)科的健康發(fā)展。評(píng)測(cè)對(duì)于 NLP 研究人員來(lái)說(shuō),就像生物醫(yī)學(xué)的顯微鏡、天文學(xué)的望遠(yuǎn)鏡一樣,這些觀察工具的優(yōu)劣,直接決定了科學(xué)研究成果的深淺。

舉例來(lái)說(shuō) 2003 年到 2006 年間,中文自動(dòng)分詞技術(shù)經(jīng)歷了一次重大突破,突破的原因在于對(duì)中文分詞評(píng)測(cè)觀念的重大創(chuàng)新。以往國(guó)內(nèi)認(rèn)為中文分詞是沒(méi)有標(biāo)準(zhǔn)答案的,比如「北京西站」可以切分成一個(gè)詞,也可以切分成「北京 西站」兩個(gè)詞,甚至可以切分成「北京 西 站」三個(gè)詞,評(píng)測(cè)時(shí)如果評(píng)委中的多數(shù)認(rèn)為這三種切法都是合理的,那么這三種切法都是對(duì)的。但 ACL SIGHAN 專(zhuān)業(yè)委員會(huì)組織的中文分詞評(píng)測(cè) Bakeoff-2003,認(rèn)為上述三種切分結(jié)果應(yīng)視作三種不同的分詞規(guī)范。不同的分詞規(guī)范應(yīng)提供不同的訓(xùn)練和測(cè)試語(yǔ)料,這樣分詞結(jié)果就有了唯一的標(biāo)準(zhǔn)答案,即所謂的「金本位」(gold stand),因此評(píng)測(cè)標(biāo)準(zhǔn)有了含金量的意味。

在此基礎(chǔ)上 Bakeoff-2003 采用了召回率 R、精確率 P 和兩者的調(diào)和平均值 F 等三項(xiàng)指標(biāo),而不像國(guó)內(nèi)只有分詞正確率一項(xiàng)指標(biāo)。何況由于國(guó)內(nèi)原來(lái)的分詞測(cè)試語(yǔ)料沒(méi)有標(biāo)準(zhǔn)答案,所以這個(gè)正確率的定義是含糊不清的。進(jìn)而 Bakeoff-2003 還分別設(shè)立了表內(nèi)詞和未登錄詞的兩個(gè)召回率指標(biāo),在這兩項(xiàng)指標(biāo)的指引下我得出未登錄詞對(duì)分詞精度失落的影響比表內(nèi)詞的歧義切分所引起的精度失落高 5 到 10 倍。這個(gè)結(jié)論回答了分詞界一個(gè)長(zhǎng)期懸而未決的難題,根據(jù)這個(gè)認(rèn)識(shí)不難得出以下的推論:能使未登錄詞的召回率顯著提升的模型和算法一定是最佳的分詞方法。果然,到了 Bakeoff-2005 分詞技術(shù)就發(fā)生了巨大的變化,推翻了以前以詞為基礎(chǔ)的主流的分詞方法,出現(xiàn)了以字為基礎(chǔ)的全新的分詞方法。到了 Bakeoff-2006 年就沒(méi)有人再做基于詞的分詞系統(tǒng)了。

問(wèn):測(cè)試方法如此重要,是否可以說(shuō)這是科學(xué)研究的頂層設(shè)計(jì)呢?

黃昌寧:您提的這個(gè)問(wèn)題很好,科學(xué)研究的頂層設(shè)計(jì)確實(shí)包含了評(píng)測(cè)方法,但還包括其他的重要問(wèn)題:如項(xiàng)目的宗旨和定義、基礎(chǔ)理論和方法、項(xiàng)目推進(jìn)的路線圖和最終成果的鑒定等等。

這些頂層設(shè)計(jì)美國(guó)做的最好,而國(guó)內(nèi)卻很少。因?yàn)檫@些工作不是個(gè)別團(tuán)隊(duì)的經(jīng)費(fèi)和人力能輕易做到的。周明說(shuō)我們的 NLP 研究要在 2020 年達(dá)到世界先進(jìn)水平,那么頂層設(shè)計(jì)就一定要做。你想,如果我們沒(méi)有頂層設(shè)計(jì)的話,論文數(shù)量再多,原創(chuàng)性和引用率也趕不上人家。

美國(guó)國(guó)防部 DARPA 設(shè)立項(xiàng)目經(jīng)理人的做法值得我們學(xué)習(xí)。他們通常會(huì)設(shè)定一些項(xiàng)目,如信息檢索、問(wèn)答系統(tǒng)、話題識(shí)別和追蹤等,并為每個(gè)項(xiàng)目設(shè)立一個(gè)項(xiàng)目經(jīng)理,其人選不是來(lái)自政府機(jī)關(guān),而是從大學(xué)或科研院所中聘請(qǐng)的領(lǐng)域?qū)<?。?xiàng)目經(jīng)理負(fù)責(zé)完成項(xiàng)目的頂層設(shè)計(jì),包括項(xiàng)目宗旨、資料制備、評(píng)測(cè)方法、項(xiàng)目推進(jìn)路線圖、評(píng)測(cè)會(huì)議和學(xué)術(shù)交流等。我希望中國(guó)政府也可以參照這個(gè)經(jīng)驗(yàn)來(lái)推進(jìn)我國(guó)科研項(xiàng)目的頂層設(shè)計(jì)。

二、研究

問(wèn):您怎么來(lái)看待您過(guò)去從事過(guò)的研究呢?

黃昌寧:我覺(jué)得,在自己的研究領(lǐng)域,一個(gè)人一輩子未必能參與一次技術(shù)上的重大突破。如前所述,我很幸運(yùn)有機(jī)會(huì)參與了 2003-2006 年中文自動(dòng)分詞的那次大突破。不過(guò)我認(rèn)為,無(wú)論您是否能親歷科研上的重大突破,只要恪守正確的科學(xué)方法一步一步往前探索,不急不燥,就一定可以積小步而成大步。即使您的心得微不足道,那也是對(duì)科學(xué)研究的一份貢獻(xiàn)。

問(wèn):那么,老師您對(duì)??做出的哪項(xiàng)工作最為滿(mǎn)意?

黃昌寧:我想最讓我滿(mǎn)意的是 1993 年在《語(yǔ)言文字應(yīng)用》雜志第 2 期上發(fā)表「關(guān)于處理大規(guī)模真實(shí)文本的談話」的論文。我的這篇文章是國(guó)內(nèi)第一篇公開(kāi)主張大數(shù)據(jù)真實(shí)文本處理的宣言,這也是我本人終身堅(jiān)持的學(xué)術(shù)主張和方法論。自然語(yǔ)言處理在這之前也有一些著名的演示系統(tǒng),但這些系統(tǒng)都只能在有限的情景下進(jìn)行簡(jiǎn)單的人機(jī)對(duì)話,不能適應(yīng)社會(huì)和企業(yè)界對(duì)自然語(yǔ)言處理技術(shù)的大規(guī)模需求。這就是第一代人工智能技術(shù)的困境,要突破這個(gè)困境就要從第一代走向第二代。

其次是 1999 年我到微軟以后從事中文分詞的研究,包括編寫(xiě)分詞規(guī)范、標(biāo)注分詞語(yǔ)料和研制高精度的分詞系統(tǒng)。在此期間我發(fā)現(xiàn)中文分詞的可計(jì)算定義既不是單純的標(biāo)注規(guī)范也不是分詞規(guī)范+詞表,而應(yīng)該是大規(guī)模的分詞標(biāo)注語(yǔ)料,從中也認(rèn)識(shí)到計(jì)算機(jī)使用的語(yǔ)言知識(shí)在形式上和顆粒度上都不同于傳統(tǒng)的人類(lèi)語(yǔ)言知識(shí)。這個(gè)認(rèn)識(shí)在最近兩年的大數(shù)據(jù)、深度學(xué)習(xí)的計(jì)算模型上再次得到驗(yàn)證。

三、經(jīng)驗(yàn)

問(wèn):老師您在研究和教育上已經(jīng)耕耘了六?多年,見(jiàn)證了中國(guó)學(xué)術(shù)界半個(gè)多世紀(jì)的變遷,您在研究和生活中?定有很多的?生經(jīng)驗(yàn)。您能否分享一些這方面的經(jīng)驗(yàn)?zāi)兀?/h4>

黃昌寧:我對(duì)這個(gè)問(wèn)題有兩個(gè)看法:

第一,一個(gè)學(xué)者應(yīng)該對(duì)自己的研究領(lǐng)域有深刻的洞察力。這也是我對(duì)自己指導(dǎo)的博士生提出的一個(gè)基本要求。洞察力的養(yǎng)成非常重要,首先要時(shí)刻關(guān)注該領(lǐng)域最前沿的少數(shù)幾篇論文,務(wù)求融會(huì)貫通,要做到有洞察力還需要有多視角的思維。人們常說(shuō)視野決定事業(yè),也可以說(shuō)視野決定洞察力,有了洞察力才會(huì)有創(chuàng)新。

第二,要?jiǎng)?chuàng)造機(jī)會(huì)訪問(wèn)最著名的研究團(tuán)隊(duì),和最著名的研究者在一起討論問(wèn)題。這樣的接觸常常會(huì)令您腦洞大開(kāi)。我在微軟工作 14 年,接觸過(guò)大量的年輕實(shí)習(xí)生和博士后,我發(fā)現(xiàn)他們?cè)谖④浀倪@段研究生涯對(duì)他們?nèi)蘸蟮难芯慷加猩羁痰挠绊憽?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

專(zhuān)訪NLP前輩黃昌寧先生,每一階段都是常人難以企及的輝煌

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)