0
黃昌寧先生,作為我國自然語言處理領(lǐng)域的先行者之一,在過去近四十年的時間里為我國自然語言處理的發(fā)展做出了杰出的貢獻(xiàn)。2017 年 11 月,中國計算機學(xué)會(CCF)在第六屆自然語言處理及中文計算會議(NLPCC 2017)上將首屆「CCF中文信息技術(shù)專委會杰出貢獻(xiàn)獎」授予黃昌寧先生。近日,雷鋒網(wǎng)有幸去黃昌寧先生家中拜訪。黃先生今年已 81 歲高齡,但仍然精神抖擻,思維十分敏捷;言談平和近人,處處透出大師風(fēng)范。在雷鋒網(wǎng)拜訪黃先生的兩個多小時里,黃先生非常和藹、健談,提出了許多極有價值的觀點和建議。
粗略來說,黃昌寧先生的人生大致可以分為兩段:45 歲前和 45 歲后。
1937 年出生于廣東的黃昌寧,在 1955 年以優(yōu)異的成績考入清華大學(xué)電機系。1961 年畢業(yè)后留校任教。
文革期間,在大學(xué)里無論是教學(xué)還是科研工作都無法正常地進(jìn)行下去。隨著「四人幫」的倒臺,國內(nèi)研究百廢待興。在 70 年代,黃昌寧主編了大學(xué)教材《晶體管電路》,一躍成為清華極為知名的教授,該書在國內(nèi)發(fā)行量逾百萬冊。
1977 年清華大學(xué)設(shè)立計算機系,為了彌補與國際研究的差距,學(xué)校組織多名教授在全國范圍內(nèi)進(jìn)行學(xué)科調(diào)查。黃昌寧當(dāng)時根據(jù)調(diào)查結(jié)果認(rèn)為,一定要跟蹤世界科學(xué)研究的先進(jìn)方向,設(shè)立人工智能專業(yè)。隨后他參與了《人工智能原理》及《LISP 語言》的翻譯并開設(shè)了相關(guān)課程,填補了當(dāng)時國內(nèi)的空白,引起了很大的反響。黃昌寧也由此開始接觸自然語言處理。
上世紀(jì) 80 年代世界銀行給中國政府提供了一批貸款,資助一部分研究學(xué)者出國進(jìn)修,1982 年 45 歲的黃昌寧由此得以走出國門。
黃昌寧在耶魯大學(xué)進(jìn)行為期一年的訪問。在此期間黃昌寧對當(dāng)時的學(xué)界巨擘美國人工智能學(xué)會會長、耶魯大學(xué)計算機系系主任羅杰·尚克的工作比較感興趣,羅杰·尚克是「故事腳本多語言機器翻譯系統(tǒng)」的創(chuàng)始人,他主張?zhí)^句法分析直接進(jìn)入文本的語義理解和處理,這對句法比較松散的漢語 NLP 似乎更有吸引力。但是黃昌寧很快就發(fā)現(xiàn)了尚克的問題,跳過句法直接理解語義相當(dāng)于舍去形式而直抵內(nèi)容,他認(rèn)為這在實踐中很難實現(xiàn)。這一觀察后來也被證實是正確的,尚克本人不久也離開耶魯去了美國西北大學(xué)從事學(xué)習(xí)研究。
1983 年學(xué)習(xí)結(jié)束后,黃昌寧按時返回國內(nèi),從此就再也沒有閑下來。這可以分為兩個階段:清華執(zhí)教階段和受聘微軟階段。
80 年代初,在國內(nèi)自然語言處理的研究還幾乎是個空白,黃昌寧不僅把這門學(xué)科的思想帶進(jìn)了中國,還極大地促進(jìn)了 NLP 在國內(nèi)的發(fā)展。這方面的工作以 1993 年發(fā)表的論文「關(guān)于處理大規(guī)模真實文本的談話」為代表。這是國內(nèi)首篇公開主張大數(shù)據(jù)真實文本處理的一次宣言。
其次,黃昌寧還同時挑起"七五」國家攻關(guān)項目「自然語言理解和人機接口」、國防預(yù)研項目「軍事文本理解技術(shù)」等。
1998 年秋,黃昌寧應(yīng)香港大學(xué)之邀,進(jìn)行了為期半年的講學(xué)。當(dāng)時微軟中國研究院剛剛成立,院長李開復(fù)博士在香港約見了黃昌寧,動員他加盟微軟中國研究院。
1999 年 4 月,62 歲的黃昌寧先生在清華執(zhí)教近 40 年榮譽退休,但卻愈發(fā)地老當(dāng)益壯,開啟了另一段輝煌。退休后的他隨即接受了微軟中國研究院的聘請,成為當(dāng)時研究院中年齡最大的研究員(當(dāng)時李開復(fù)院長年齡最大,還不到 40 歲)。在黃昌寧的帶領(lǐng)下微軟中國研究院成立了自然語言計算組,其研究則幾乎涉及當(dāng)時 NLP 的方方面面,如中文分詞、句法分析、機器翻譯、問答系統(tǒng)等等,在國內(nèi)外很快就達(dá)到了頂尖水平。
在論文方面,黃昌寧所帶領(lǐng)的團(tuán)隊可謂是中國 NLP 研究走向國際的先鋒。2000 年 ACL 在中國香港舉辦,當(dāng)時大會總共接收 70 篇論文,微軟亞洲研究院有 6 篇論文入選,其中 4 篇出自黃昌寧所帶領(lǐng)的團(tuán)隊。這也是國內(nèi)較早幾篇發(fā)表在國際頂會中的論文。當(dāng)然這些只是他們工作的冰山一角,其他例如隨后的 2001 年他們在影響因子不下于 ACL 的《Computational Linguistics & Chinese Language Processing》期刊上又連續(xù)發(fā)表了 5 篇論文。
隨著年齡的增長,黃昌寧先生因眼疾及高度近視視力嚴(yán)重衰退,隨后漸漸退出微軟的管理工作,交由周明博士主管,他擔(dān)任顧問。
黃昌寧先生對在微軟期間的工作總結(jié)道:「從成果上來講,在微軟的幾年時間里,比我在清華 40 年做的成果還要大得多?!?br/>
「賦閑」在家的黃先生并沒有過一種遛鳥養(yǎng)花的閑逸生活,他仍然在時刻關(guān)注著前沿的研究,并思考如何才能使我國 NLP 的研究水平更上一層樓。
通過與黃昌寧先生的對話,雷鋒網(wǎng)得以了解其中的兩個側(cè)面:一,他高度肯定評測對 NLP 發(fā)展的重要性,認(rèn)為評測之于NLP正如顯微鏡之于生物醫(yī)學(xué);二,中國 NLP 研究若想進(jìn)入世界先進(jìn)水平,需要做好頂層設(shè)計的工作。
細(xì)看黃昌寧先生近六十年的研究生涯,從風(fēng)華年少到耄耋之年,每一階段都是一次常人難以企及的輝煌。2017 年 11 月 10 日,基于黃昌寧先生為我國自然語言處理的研究做出的貢獻(xiàn),中國計算機學(xué)會在第六屆自然語言處理及中文計算會議(NLPCC 2017)上將首屆「CCF中文信息技術(shù)專委會杰出貢獻(xiàn)獎」授予黃昌寧先生。
黃昌寧教授(中)獲杰出貢獻(xiàn)獎
以下為雷鋒網(wǎng)與黃先生部分對話精簡。
黃昌寧:有人說自然語言處理是人工智能皇冠上的明珠,大概是因為語言是人類區(qū)別于其他高等動物的重要標(biāo)志,是人類智能的集中體現(xiàn),既然是這樣,把 NLP 的研究看成是科學(xué)上的重要問題也就不奇怪了。自然語言研究的意義就是讓計算機能理解或處理自然語言,也就是讓計算機明白無誤的掌握人類的最高智慧。
黃昌寧:我覺得國內(nèi)自然語言處理和人工智能研究的現(xiàn)狀,是隨著改革開放的進(jìn)展而得到逐步改善的,是一個漸進(jìn)的過程。
特別是最近幾年,有很大的變化,這主要是取決于兩個方面:一個是政府給的科研資助有了很大的提高;另外一個是研究人員的數(shù)量大幅度的增加?,F(xiàn)在國內(nèi)從事自然語言處理的研究者要比日本、韓國等國家多得多。所以文章的數(shù)量超過了別人也是理所當(dāng)然的。但是我一直覺得,雖然文章的數(shù)量是多了,但我們引領(lǐng)研究導(dǎo)向的論文和成果依然很少。
黃昌寧:政府干預(yù)科學(xué)研究的計劃是一柄雙刃劍,做得好有可能在一個時期內(nèi)提高國家的科學(xué)研究水平,做得不好也可能是瞎指揮,不是幫忙而是添亂。
這樣的例子在國內(nèi)也不是沒有的,雖然規(guī)劃制定者咨詢過一線研究人員,但畢竟他本人不是一線科研人員,所以他不可能全程跟蹤某一個項目的研究活動。從國際上看,人工智能領(lǐng)域出現(xiàn)過幾次令世人驚詫的成果,比如 1997 年 IBM 深藍(lán)戰(zhàn)勝世界國際象棋冠軍卡斯帕羅夫;2011 年 2 月 IBM 的深度問答系統(tǒng)「沃森」,在美國 Jeopardy 電視競答節(jié)目上一舉打敗該節(jié)目的兩位前冠軍;2016 年 3 月 Google 的 Alpha GO 戰(zhàn)勝人類九段圍棋選手等。這些人工智能的項目都不是政府規(guī)劃出來的,而是世界頂尖研究團(tuán)隊創(chuàng)造出來的。
黃昌寧:我一直認(rèn)為,計算語言學(xué)是一門實證科學(xué),公開和可重復(fù)的評測,決定了這門學(xué)科的健康發(fā)展。評測對于 NLP 研究人員來說,就像生物醫(yī)學(xué)的顯微鏡、天文學(xué)的望遠(yuǎn)鏡一樣,這些觀察工具的優(yōu)劣,直接決定了科學(xué)研究成果的深淺。
舉例來說 2003 年到 2006 年間,中文自動分詞技術(shù)經(jīng)歷了一次重大突破,突破的原因在于對中文分詞評測觀念的重大創(chuàng)新。以往國內(nèi)認(rèn)為中文分詞是沒有標(biāo)準(zhǔn)答案的,比如「北京西站」可以切分成一個詞,也可以切分成「北京 西站」兩個詞,甚至可以切分成「北京 西 站」三個詞,評測時如果評委中的多數(shù)認(rèn)為這三種切法都是合理的,那么這三種切法都是對的。但 ACL SIGHAN 專業(yè)委員會組織的中文分詞評測 Bakeoff-2003,認(rèn)為上述三種切分結(jié)果應(yīng)視作三種不同的分詞規(guī)范。不同的分詞規(guī)范應(yīng)提供不同的訓(xùn)練和測試語料,這樣分詞結(jié)果就有了唯一的標(biāo)準(zhǔn)答案,即所謂的「金本位」(gold stand),因此評測標(biāo)準(zhǔn)有了含金量的意味。
在此基礎(chǔ)上 Bakeoff-2003 采用了召回率 R、精確率 P 和兩者的調(diào)和平均值 F 等三項指標(biāo),而不像國內(nèi)只有分詞正確率一項指標(biāo)。何況由于國內(nèi)原來的分詞測試語料沒有標(biāo)準(zhǔn)答案,所以這個正確率的定義是含糊不清的。進(jìn)而 Bakeoff-2003 還分別設(shè)立了表內(nèi)詞和未登錄詞的兩個召回率指標(biāo),在這兩項指標(biāo)的指引下我得出未登錄詞對分詞精度失落的影響比表內(nèi)詞的歧義切分所引起的精度失落高 5 到 10 倍。這個結(jié)論回答了分詞界一個長期懸而未決的難題,根據(jù)這個認(rèn)識不難得出以下的推論:能使未登錄詞的召回率顯著提升的模型和算法一定是最佳的分詞方法。果然,到了 Bakeoff-2005 分詞技術(shù)就發(fā)生了巨大的變化,推翻了以前以詞為基礎(chǔ)的主流的分詞方法,出現(xiàn)了以字為基礎(chǔ)的全新的分詞方法。到了 Bakeoff-2006 年就沒有人再做基于詞的分詞系統(tǒng)了。
黃昌寧:您提的這個問題很好,科學(xué)研究的頂層設(shè)計確實包含了評測方法,但還包括其他的重要問題:如項目的宗旨和定義、基礎(chǔ)理論和方法、項目推進(jìn)的路線圖和最終成果的鑒定等等。
這些頂層設(shè)計美國做的最好,而國內(nèi)卻很少。因為這些工作不是個別團(tuán)隊的經(jīng)費和人力能輕易做到的。周明說我們的 NLP 研究要在 2020 年達(dá)到世界先進(jìn)水平,那么頂層設(shè)計就一定要做。你想,如果我們沒有頂層設(shè)計的話,論文數(shù)量再多,原創(chuàng)性和引用率也趕不上人家。
美國國防部 DARPA 設(shè)立項目經(jīng)理人的做法值得我們學(xué)習(xí)。他們通常會設(shè)定一些項目,如信息檢索、問答系統(tǒng)、話題識別和追蹤等,并為每個項目設(shè)立一個項目經(jīng)理,其人選不是來自政府機關(guān),而是從大學(xué)或科研院所中聘請的領(lǐng)域?qū)<?。項目?jīng)理負(fù)責(zé)完成項目的頂層設(shè)計,包括項目宗旨、資料制備、評測方法、項目推進(jìn)路線圖、評測會議和學(xué)術(shù)交流等。我希望中國政府也可以參照這個經(jīng)驗來推進(jìn)我國科研項目的頂層設(shè)計。
黃昌寧:我覺得,在自己的研究領(lǐng)域,一個人一輩子未必能參與一次技術(shù)上的重大突破。如前所述,我很幸運有機會參與了 2003-2006 年中文自動分詞的那次大突破。不過我認(rèn)為,無論您是否能親歷科研上的重大突破,只要恪守正確的科學(xué)方法一步一步往前探索,不急不燥,就一定可以積小步而成大步。即使您的心得微不足道,那也是對科學(xué)研究的一份貢獻(xiàn)。
黃昌寧:我想最讓我滿意的是 1993 年在《語言文字應(yīng)用》雜志第 2 期上發(fā)表「關(guān)于處理大規(guī)模真實文本的談話」的論文。我的這篇文章是國內(nèi)第一篇公開主張大數(shù)據(jù)真實文本處理的宣言,這也是我本人終身堅持的學(xué)術(shù)主張和方法論。自然語言處理在這之前也有一些著名的演示系統(tǒng),但這些系統(tǒng)都只能在有限的情景下進(jìn)行簡單的人機對話,不能適應(yīng)社會和企業(yè)界對自然語言處理技術(shù)的大規(guī)模需求。這就是第一代人工智能技術(shù)的困境,要突破這個困境就要從第一代走向第二代。
其次是 1999 年我到微軟以后從事中文分詞的研究,包括編寫分詞規(guī)范、標(biāo)注分詞語料和研制高精度的分詞系統(tǒng)。在此期間我發(fā)現(xiàn)中文分詞的可計算定義既不是單純的標(biāo)注規(guī)范也不是分詞規(guī)范+詞表,而應(yīng)該是大規(guī)模的分詞標(biāo)注語料,從中也認(rèn)識到計算機使用的語言知識在形式上和顆粒度上都不同于傳統(tǒng)的人類語言知識。這個認(rèn)識在最近兩年的大數(shù)據(jù)、深度學(xué)習(xí)的計算模型上再次得到驗證。
黃昌寧:我對這個問題有兩個看法:
第一,一個學(xué)者應(yīng)該對自己的研究領(lǐng)域有深刻的洞察力。這也是我對自己指導(dǎo)的博士生提出的一個基本要求。洞察力的養(yǎng)成非常重要,首先要時刻關(guān)注該領(lǐng)域最前沿的少數(shù)幾篇論文,務(wù)求融會貫通,要做到有洞察力還需要有多視角的思維。人們常說視野決定事業(yè),也可以說視野決定洞察力,有了洞察力才會有創(chuàng)新。
第二,要創(chuàng)造機會訪問最著名的研究團(tuán)隊,和最著名的研究者在一起討論問題。這樣的接觸常常會令您腦洞大開。我在微軟工作 14 年,接觸過大量的年輕實習(xí)生和博士后,我發(fā)現(xiàn)他們在微軟的這段研究生涯對他們?nèi)蘸蟮难芯慷加猩羁痰挠绊憽?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。