
一直來到實叻坡,乜事無。上山來做工,伯公“多隆”保平安。——潮州過番歌
所謂“過番”,指早期潮州人外出務工,乘坐小船歷經(jīng)七天七夜到達東南亞謀生,“實叻坡”是馬來語“Selat”的音譯詞,便是指“新加坡”。上世紀,從中國東南一帶移民至新加坡的華人中,福建人最多,其次就是潮州人。他在潮汕地區(qū)的一個小漁村長大,從小聽聞“石叻坡”;沒有上過小學,13歲前只會說潮州話,沒想到長大后卻精通普通話、廣東話、英文與法文等多門語言,來到這座世界知名獅城,成為全球研究多語種語音與語言識別的先行者,入選 IEEE Fellow,多少有些不可思議。作為全球知名的語音與語言處理專家,李海洲在工業(yè)界與學術界均頗有耕耘。早于深度學習興起30年前,他便開始用神經(jīng)網(wǎng)絡進行語音識別??v橫學海四十年,李海洲見證了神經(jīng)網(wǎng)絡從無人問津到風靡一時。在新的人物系列“Fellow來了”中,我們邀請了新加坡國立大學教授、快商通首席科學家李海洲作為第一位嘉賓,與我們分享了他的研究經(jīng)歷。作者 | 陳彩嫻
80年代大學生
當年去廣州讀大學,乃至后來遠渡重洋,臨行前,我父親都只能給一句簡短的安慰:“我沒法資助你。如果外面情況不好,就回來吧!”
從1994年離家至今,潮州學者李海洲已在海外生活近三十年。在接受新加坡潮州八邑會館《潮人故事》的系列采訪時,他回憶上世紀獨身在外拼搏,從潮州小漁村到廣州讀書,又從廣州去法國、法國到新加坡,恍如隔世。文革前夕,他在中國潮安古鎮(zhèn)的一所百年老屋中出生,之后隨父母遷居汕頭外海的南澳島。由于島上生活貧瘠,沒有學校,與陸地之間的交通又不便利,所以他小時候沒有機會上學。所幸母親有些書本供他翻閱、學習認字。李海洲在南澳島度過了他的童年,極少與外界交流,所識語言只有家鄉(xiāng)的潮州話。他記得,在他13歲開始上學時,因為沒有學過普通話,所講的國語常常成為同學的笑柄。奶奶總是提醒我,你要讀書,要考到好成績,不然以后倒垃圾的工作都不會輪到你。
他拼命學習,考上潮安第一中學(現(xiàn)為潮州金山中學),又在15歲那年以優(yōu)異的成績考上了廣州華南理工大學(以下簡稱“華工”)無線電工程系。當時,文革結束不久,高考恢復不過3年,教育制度還未健全,入學標準只憑考試成績,而不限制年齡。于是,1980年,16歲的潮州少年李海洲又孤身一人,乘坐大巴,從潮州來到了廣州。他記得,那時候,父親的月薪只有人民幣50元,并不能為他的遠游提供太多經(jīng)濟上的資助。在華工讀書時,每個冬天,他都是洗冷水澡。但李海洲很樂觀:“我洗冷水澡時,一定會大聲唱歌,因為唱歌的一個功效便是減少痛感?!?/span>那時候,雖然生活條件艱苦,但李海洲稱,在華工的讀書時光是他最重要的成長階段。他在母校收獲了刻苦耐勞、動手實干的工程師特質與大學精神。在這段樸素而純粹的流金歲月里,他以苦為樂,全身心投入專業(yè)知識學習,取得了優(yōu)異成績。李海洲從小就對智能機器十分著迷,高中時在物理老師謝甲明的指導下迷上了無線電。本科時,他努力學習無線電相關的專業(yè)知識,畢業(yè)那年考取了時任華南工學院副院長、著名電子學家徐秉錚教授的碩士研究生(通信與電子系統(tǒng)方向),在徐秉錚的門下學習語音處理。碩士期間,李海洲在數(shù)字信號處理技術領域多次發(fā)表學術論文,其中,“基于音素的普通話孤立字、詞的不認人識別”獲得了廣東省高教科技進步二等獎,成為了徐秉錚的得意門生。1987年夏天,即將碩士畢業(yè)時,徐秉錚舉薦李海洲去參加了香港大學陳礎堅教授(香港首位從事語音識別研究的學者)在廣州開設的暑期班。李海洲還記得,當時在第一節(jié)課上,陳礎堅就對著臺下的學生說:大家要仔細聽講喲,兩周后參加考試,成績優(yōu)異的學生會有機會去香港實驗室深造。
李海洲十分努力,兩個星期后,他在一眾學生中突圍而出,成為了少數(shù)入選華南理工大學與香港大學聯(lián)合培養(yǎng)博士研究生的幸運兒,拜師陳礎堅門下,繼續(xù)研究語音處理學。那時,香港還未回歸,去香港讀書比出國還難。李海洲印象深刻:“我去了香港后,有一年國慶節(jié),新華社邀請在港讀書的內地學生就餐,整個香港只有20個內地學生。”
圖注:香港大學主樓
在港讀博期間,李海洲完成了香港政府資助的“語音靜態(tài)模型”研究項目。他的博士論文“語音的靜態(tài)模型及漢語語音識別算法的研究”因其創(chuàng)新的視角與扎實的理論基礎,不僅得到了電子研究同行的一眾好評,還獲得了知名數(shù)學家梁之舜(國內最早研究概率統(tǒng)計學的學者之一)的高度評價。值得注意的是,早在深度學習興起之前,李海洲這篇發(fā)表于上世紀90年代的博士論文已經(jīng)用到了神經(jīng)網(wǎng)絡的語音識別算法。但當時,用神經(jīng)網(wǎng)絡識別語音的技術在國內并不受推崇,“我1990年博士畢業(yè)時都找不到工作”。他分析,原因主要有兩點:一是當時的電腦計算能力沒有現(xiàn)在這么強,比如,在他的博士論文結果中,電腦只能識別 10 個數(shù)字;二是當時的電腦價格非常昂貴,相當于一個大學教授幾個月的薪水。如此一來,高成本、低回報,這項技術自然就遭到了冷落。后來,在徐秉錚的幫助下,李海洲獲得了留校任教的機會。雖然當時智能語音識別研究不受推崇,但李海洲堅持自己的熱愛:“我就覺得,計算機能聽懂我說的話,真的太神奇了!”于是,他與導師徐秉錚繼續(xù)沿著這個方向探索。比如,他們發(fā)表于1991年的工作“An implementation of short-timed speech recognition on layered neural nets”就開始嘗試引入神經(jīng)網(wǎng)絡架構與學習算法來實現(xiàn)多層感知器(MLP)上的孤立詞識別,同年工作“A learning algorithm for MLN with dynamic neurons”又嘗試訓練具有多局部反饋的動態(tài)神經(jīng)元的多層網(wǎng)絡架構,使其記憶序列模式,用來進行中文數(shù)字語音識別。回想那段無人問津的研究歲月,李海洲的感受是:“我覺得自己很幸運,因為在深度學習冷門的時候,我就開始研究。只是當時條件有限,但后來數(shù)據(jù)增多,深度學習就顯示出了它的強大。我從中得到的體會就是,要喜歡自己的研究,然后堅持。如果你又喜歡、又專注,你也有能力,那你的研究遲早會有用。”多語種研究
我是從漁村里走出來的窮小子,沒上過小學。16歲剛上大學時,我連英語“早安”(Good Morning)都不會說。
從1990年博士畢業(yè)至今,這30多年里,李海洲堅持自己做語音識別與語言處理的方法。他一直認為,機器學習的基礎理論不僅支持了機器的識別工作,而且也是人學習語音與語言的過程;也就是說,人的學習也是一個“機器學習”過程,只是學習的主體不是電腦,而是人腦:“人學習的過程也是通過大數(shù)據(jù)進行學習,從聽人如何發(fā)音,到一個音、一個音地學習,然后學會了一種語言,再將第一種語言的知識轉移到第二種語言中去?!?/span>這個觀點來源于李海洲本人學習多種語言的親身經(jīng)歷。李海洲的母語是潮州話,上了中學后開始學習普通話?!?/span>那時候我覺得學普通話很難很難,但是,當我學習第三種語言、第四種語言、第五種語言時,我就覺得沒那么難了,因為我已經(jīng)有了學習語言的方法。機器學習就是這樣,從一個地方學來的東西可以拿給第二個地方用,所以我對機器學習特別有興趣?!?/span>上初中時,他只學會一句英語,就是“Long Live Chairman Mao”,升高中后多了一句“Never forget class struggle”。所幸,英語在1981年之后才被列為高考的必考科目,而李海洲十分幸運,因為他參加的是1980年高考。讀博期間,李海洲的大部分時光都是在香港度過。那時候,他才有機會學習英文;此前,他連“Good Morning”都聽不懂。也是在那時候,李海洲開始學講廣東話,他的感受是:“廣東話最難學,因為沒有課本?!?/span>博士畢業(yè)后,1991年,李海洲加入華南理工大學任教,年僅26歲就被華工評為副教授;一年后,也就是1992年,又被破格提升為教授,擔任博士生導師,成為了全廣東省最年輕的博導。但李海洲并沒有安于現(xiàn)狀,1994年,他又在法國國家科學院的邀請下,去法國國家科學研究中心(CNRS)擔任研究員,從事語音識別研究,并開始涉獵聲紋識別。在法國的三年,李海洲駐在“洛林之魂”南錫(Nancy)。出發(fā)前,他已在廣州學了一年法文。到了南錫之后,他又幾乎每晚都跑去“阿爾及利亞人之家”學法文。這是一個專門協(xié)助阿爾及利亞人學法文的機構,無需學費,學員只需在冬天時付點柴火費。他們沒有拒絕李海洲的加入,他也去了足足一年,總算打好法文基礎。
1996年,受到新加坡多元語言與文化氛圍的吸引,李海洲又應聘到了蘋果公司新加坡研究中心擔任語音處理實驗室主任。之后,他便一直留在新加坡,先后任職于蘋果、Lernout & Hauspie、言豐科技、新加坡資訊通信研究院(A*STAR),直到2014年重返學術界,加入新加坡國立大學電氣與計算機工程系擔任終身教授。如今,李海洲熟練掌握潮州話、普通話、廣東話、英語和法語,能應付工作需要的語言還有越南語、泰國語、馬來語、日語和韓語。有感于自身學習語言的經(jīng)歷,在教機器學習時,李海洲總是強調“先了解人是如何學習的,然后再告訴機器應該怎樣學習”。這是他多年來的研究心得,即把人的認知過程放在機器學習的研究上。從這一思路出發(fā),李海洲團隊在語音識別與語言處理上取得了許多不錯的研究成果。比如,最近他們被頂刊 TASLP 錄用的工作(“Target Speaker Verification with Selective Auditory Attention for Single and Multi-talker Speech”)便是來源于對人們日常交流方式的觀察,從“雙向認知過程”來做語音識別與對話系統(tǒng)。在人類的交流中,當 A 在聽 B 說話時,無論旁邊有多少雜音、B 說話的聲音多小,A 只需要專注聽,就一定能聽到 B 的說話聲,因為人腦可以“指揮”耳朵聽什么、不聽什么。但現(xiàn)在的機器在識別目標語者時,性能并不穩(wěn)定。有時候,如果兩三個人在一起同時說話,電腦就無法識別。“我就研究,人在復雜的環(huán)境中是怎么聽的,任何把這個過程放在機器里。”李海洲談道。在 TASLP 這個工作中,受 SpEx 等工作的啟發(fā),他們就在機器識別中引入了聽覺注意力機制,提出了目標語者驗證(tSV)框架,可以在多語者環(huán)境中有效識別目標語音。地址:https://arxiv.org/abs/2103.16269對研究思路的指導還是其次,多語言背景對李海洲最重要的影響是使他成為了多語種語音識別研究的先行者。他在2014年被選為 IEEE Fellow,入選理由便是“For leadership in multilingual speaker and language recognition”(引領多語種語音與語言識別研究)。早期的語音識別局限于英文,而李海洲的工作不僅覆蓋英語,還有中文、馬來文、韓語、日語、泰文、越南語等等?!叭嗽诜终Z言時,是人為分割,其實是同一雙耳朵、同一個大腦。我的理念是用同一套系統(tǒng)(多語種大詞匯集連續(xù)語音識別系統(tǒng))來實現(xiàn)多種語言識別,而不用重復開發(fā)?!?/span>回顧研究生涯,李海洲最自豪的是,2001年,他所開發(fā)的多語種語音自動問答系統(tǒng)在新加坡樟宜國際機場投入使用。這個系統(tǒng)每天可以處理超過一萬個查詢電話,是當時東南亞最大的全自動客戶呼叫中心?!俺鲎廛囁緳C非常喜歡這項工作,因為他們只需撥打電話,就能知道航班信息,知道什么時候出發(fā)去機場?!崩詈V抟惨虼双@得2002年新加坡國家資信科技獎。2018年,他又與南洋理工大學的 Chng Eng Siong 教授合作開發(fā)了專門用于處理新加坡 995 緊急熱線的多語種通話自動處理系統(tǒng),可以實時轉換并記錄每個電話,根據(jù)來電內容進行資源調度。這個系統(tǒng)覆蓋了多種東南亞語言,還可以識別閩南語中的“jiak ba bueh”(你吃過了嗎)和“hoh boh”(你好嗎),以及炒粿條和椰漿飯等當?shù)夭穗取?/span>2015年,李海洲當選為國際語音通信學會(International Speech Communication Association,簡稱“ISCA”)的主席。他也是ISCA自1988年在法國格勒諾布爾成立以來的首位華人主席。ISCA是語音技術領域最重要的國際頂會,李海洲相信,他能從2009年開始在 ISCA 任職,從理事到候任主席、再到主席,一個很重要的原因就是他精通法語。
除了 ISCA 主席,他還曾憑借出色的英文能力,擔任了 IEEE/ACM Transactions on Audio, Speech and Language Processing(美國研究和實踐音頻、語音和語言處理理論最權威的學術月刊)的總編輯、回想自己從一個小漁村出來,遠渡重洋,輾轉多地,李海洲十分感慨。他剛上大學時,是一個連“Good Morning”都不會說的潮州仔,沒想到后來卻能憑借出色的外文能力,在國際學術刊物與頂會上擔任要職。研究情懷:實用主義
我在中國出生長大,后來出了國。出國以后,人家經(jīng)常問我:你的研究興趣是什么?被人家問了一輩子。從來沒有人問我:你的工作是什么?
縱橫學海四十年,李海洲常常被提問到一個問題:“研究語音這么多年,您如何保持做科研的熱情?”每一次,他的內心都閃過無數(shù)問號,忍不住 OS:“除了是因為興趣,還能是什么?”在他博士畢業(yè)那會,雖然電子計算機與信息技術已開始騰飛,但因為他所研究的方向太冷門前沿,李海洲拿著一張計算機博士學位的文憑,都找不到工作。但他很喜歡自己的研究方向,“我覺得我跟機器交流,它能識別我說的話,就像變魔術一樣,很有成就感。”所以,即使沒有得到肯定,他也能堅持做下去。后來,他加入企業(yè)做研究,先后研發(fā)了蘋果電腦中文輸入系統(tǒng)、全球首款聲紋解鎖智能手機(百度云手機聯(lián)想A586)、百度音樂“聽歌識曲”等成果。A586在2012年推出,被譽為百度在人工智能領域的超前布局之一,李海洲回國,在街上看到有人使用他的聲紋識別技術解鎖,心里特別開心。“這種成就感與金錢無關。我自己是認為,有人愿意給我發(fā)薪水,讓我做我自己喜歡的東西,就是雙倍的回報。”李海洲談道,他崇尚“Use inspires research”(用途驅動研究),最大的愿望是能夠將所學的知識工程化,最終順利在現(xiàn)實中落地。從1996年到2014年期間,李海洲一直在工業(yè)界活動。2014年重返學術界、在新加坡國立大學擔任終身教授后,在培養(yǎng)學生時,他也總是強調:研究的課題必須來自實際需求;寫一篇文章,就要解決一個問題。在語音研究上,他的最終目標是希望機器能像人一樣完成語音相關的任務。當對話系統(tǒng)在與你交流時,你分不清“它”是人還是機器;機器在聽音時,無論環(huán)境多嘈雜,你都能準確識別目標者的聲音。
圖注:2013年,李海洲(左)獲得“新加坡總統(tǒng)科技獎”(新加坡科學與科技領域的最高榮譽)雖然已返回學術界,但李海洲仍然十分關心工業(yè)界的實際問題。因此,2018年,李海洲又與廈門快商通科技股份有限公司(以下簡稱“快商通”)建立了研究合作關系,在快商通擔任首席科學家。“與業(yè)界合作的一大好處是,他們每天都有很多問題。你不一定要幫助他們解決每一個問題,但通過了解這些問題,你可以總結出一些共同的根源,然后從中定義研究問題,從而將知識與業(yè)績相結合?!?/span>對比從前合作過的企業(yè),李海洲認為,快商通最大的特點是有一個大的用戶群?!拔矣X得這對做機器學習的研究是不可缺少的,因為你必須要有大量的客戶群,才能了解客戶的需求,然后從這里出發(fā),找到科學問題,改進服務?!?/span>快商通的主要業(yè)務是打造智能對話系統(tǒng)。1999年至2001年期間,李海洲也曾與比利時企業(yè) Lernout & Hauspie 合作,希望打造一臺先進的對話系統(tǒng)。但在與 L&H 合作時,智能對話系統(tǒng)的商用仍處于起步階段,他們花一年時間做一個系統(tǒng),然后推出去讓用戶體驗,收集數(shù)據(jù),再根據(jù)反饋來改進系統(tǒng),給他的感覺是“閉門造車”,難有成果。相比之下,快商通的優(yōu)勢是與客戶有直接互動,客戶數(shù)量也更多,他們可以花幾個月搭建一個系統(tǒng)、同時與用戶保持密切交流,再根據(jù)用戶數(shù)據(jù)來改進系統(tǒng)。結合自己以往在中小企業(yè)與大企業(yè)的工作經(jīng)驗,以及在高校做研究的專業(yè)知識,李海洲為快商通制定了一項研究計劃,叫“大齒輪-中齒輪-小齒輪”。他總結,一個科技企業(yè)能夠成功,模式就是像一個小齒輪箱一樣,最中間有一個轉得慢的大齒輪,旁邊有幾個中齒輪,然后外面有很多轉得飛快的小齒輪:“小齒輪是面向客戶的,每天要完成很快的任務;中齒輪是要把大齒輪的力量給傳遞出去;大齒輪就是公司的長遠科研。它必須慢慢轉,像大學里的科研一樣必須有積累。所以我強調,公司每做一個項目,都必須有技術積累,然后越做越大。也就是大齒輪的力氣就越來越大,可以帶動很多中齒輪跟小齒輪。大齒輪的儲能不是一日形成的?!?/span>在李海洲的幫助下,快商通在對話系統(tǒng)研究上取得了一系列成就。比如,在語音識別方面,快商通目前的技術可以實現(xiàn)高準確率和不同口音識別。與市面上多種語言對話需進行系統(tǒng)切換的對話系統(tǒng)不同,快商通可以在同一系統(tǒng)內達到多語言切換。在自然語言處理方面,快商通在多輪對話系統(tǒng)的性能提升和評估方面也實現(xiàn)了新的技術突破,他們的工作(“DynaEval: Unifying Turn and Dialogue Level Evaluation”)被 ACL 2021 收錄。
地址:https://arxiv.org/pdf/2106.01112.pdf在李海洲的指導下,快商通已經(jīng)完成對話機器人底層邏輯的重新構建,突破標準化產(chǎn)品模式,推出智能人機對話平臺KICP,支持0代碼、低成本、小樣本創(chuàng)建智能對話。從供給側來說,KICP可極大減少快商通的定制開發(fā)成本與后續(xù)運維投入;從需求側來說,客戶可基于需求特點與業(yè)務邏輯自主搭建,使產(chǎn)品更貼合自身想法。此外,李海洲談到,他希望能夠與快商通合作,實現(xiàn)每一單獨系統(tǒng)均服務百萬以上的客戶群,“當100萬個用戶同時來咨詢時,系統(tǒng)必須能夠實時響應?!?/span>寫在最后
除了自動語音識別,他的研究內容還包括語音分離、文本處理、數(shù)字信號處理、多模態(tài)與類腦計算等等方向。相比“人工智能”,李海洲更傾向于將其定義為“機器智能”。在他看來,目前的人工智能系統(tǒng)仍存在許多亟待解決的局限性。比如,語音識別是針對一項任務開發(fā)一個系統(tǒng)、而無法通用,并不能像人一樣舉一反三;再比如,人工智能的學習大多由數(shù)據(jù)驅動,由此打造的系統(tǒng)在面對未學習過的場景時,往往不知所措。要解決這些問題,仍需要下一代的努力。除了科研,李海洲如今最喜歡的事情便是培養(yǎng)研究生,看著學生成長。作為曾經(jīng)歷過語音研究低潮期的學者,他在面試學生時總會先問他們:“你來讀這門課,是因為真的喜歡這個課題,還是因為這個方向在外面很火熱?”只有具備真正的熱情,他才會收他們作為學生。他所培養(yǎng)的學生中,許多人目前也在高校與企業(yè)擔任要職,比如華南理工大學電子與信息學院的金連文教授,微軟首席應用科學家肖雄,F(xiàn)acebook研究科學家、開發(fā)了 TTS 工具包 Merlin 的 Zhizheng Wu等等。與李海洲一樣,他們也十分注重研究成果的落地與實用性。在深度學習時代,李海洲明顯感覺,當前的研究氛圍有些浮躁。對于青年學者,他的建議是:現(xiàn)在很多人在做語音處理的時候,因為有了深度學習的工具,所以他們就每天拿DL工具來試東西。試了100個,其中有1個好的,他就很開心了,但是什么也沒有學到,也沒辦法推廣。我覺得這個研究方法是不可取的。如果要從事語音識別、語音處理、語音合成、聲紋識別之類的研究,還是要回到根本,從語音的基本理論學起,比如學習語音是什么樣的,語音有什么樣的物理特征,回到信號處理的根本。你去了解信號是長什么樣子,人是怎么處理的,然后才慢慢的去使用工具。
而研究對話系統(tǒng)的話,李海洲的建議是首先要讀自然語言處理的基本理論知識,然后才進入深度學習的世界。“就像學武術一樣,從基本功學起,這樣才能扎穩(wěn)根?!?/span>1. http://news.iresearch.cn/content/2021/07/384705.shtml?from=groupmessage2. http://www2.scut.edu.cn/ee/2019/0516/c16322a318358/page.htm3. https://www.straitstimes.com/singapore/scdf-turns-to-artificial-intelligence-to-help-emergency-call-dispatchers4. http://www.colips.org/~eleliha/3.%20Straitstimes%202009.pdf5. https://www.sciencedirect.com/science/article/abs/pii/S01676393090012896. https://www.nas.gov.sg/archivesonline/data/pdfdoc/20131226001.htm7. http://www.colips.org/~eleliha/4.%20Helsinkitimes%202009.pdf

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。