0
Time flies like an arrow.
時光蒼蠅喜歡一支箭.
枯燥的研究中充滿樂趣,對于做自然語言處理(NLP)的人來說更是如此。語言的豐富性常常會導(dǎo)致理解的歧義,這一方面為NLP研究帶來了巨大的挑戰(zhàn),而同時也給這群樂在其中的NLPer 帶來許多自我調(diào)侃的樂趣。
在日常生活中,這些NLPer 對于語言的敏感和“特殊癖好”常常難以向常人道,而微博則提供了一個平臺,讓這些共同愛好者歡快地交流彼此的樂趣。
我國著名NLP學(xué)者劉群教授(目前擔(dān)任華為諾亞方舟實(shí)驗(yàn)室語音語義首席科學(xué)家)便是這樣一位真正熱愛自然語言的學(xué)者,在微博中,他與清華劉知遠(yuǎn)副教授并為#自然語言理解太難了#的兩位大咖。
emmm……,從微博名字就可以看出他們的喜愛
昨晚深夜,劉群教授在微博發(fā)了這樣一個推送(如果關(guān)注他的微博會發(fā)現(xiàn),這是常態(tài)),
時蠅喜箭 or 時光如矢?
如何用一句話證明你學(xué)過 NLP?這引來大量 NLPers 的圍觀和自我調(diào)侃。如下截取部分:
解析:這個句子用來說明句法可以脫離語義獨(dú)立存在;這個句子語法上沒有任何問題,但意義上完全無法解釋。(劉群)
解析:自然語言處理中最為經(jīng)典的詞類比:國王-男人+女人=皇后。出自2013年Tomas Mikolov發(fā)表的《Efficient estimation of word representations in vector space》。
解析:「Time flies like an arrow. Fruit flies like a banana.」是一個幽默說法,這是語言歧義的經(jīng)典案例?!笗r間蒼蠅喜歡箭,果蠅喜歡香蕉」
解析:中國:我們 (的疫情) 快完了歐洲:我們 (的國家/人民) 快完了中國:我們 (的疫情狀況) 好多了歐洲:我們 (的病人數(shù)量) 好多了(馮志偉)
解析:[CLS]為BERT的第一個標(biāo)志,而每句話結(jié)尾必須是[SEP]。
解析:NLP 課程上一個翻譯的玩笑,how are you?怎么是你?how old are you?怎么老是你?(劉群)
解析:這女孩用望遠(yuǎn)鏡看到那個男孩 or 這個女孩看到了那個帶望遠(yuǎn)鏡的男孩。經(jīng)典句法歧義。
解析:在機(jī)器翻譯研究的初期,人們經(jīng)常舉一個例子來說明機(jī)器翻譯任務(wù)的艱巨性。在英語中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”。但是當(dāng)時的某個機(jī)器翻譯系統(tǒng)將這句英文翻譯到俄語,然后再翻譯回英語的時候,卻變成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是濃的,但肉卻腐爛了”。從字面意義上看,“spirit”(烈性酒)與“Voltka”(伏特加)對譯似無問題,而“flesh”和“meat”也都有肉的意思。那么這兩句話在意義上為什么會南轅北轍呢?關(guān)鍵的問題就在于在翻譯的過程中,機(jī)器翻譯系統(tǒng)對于英語成語并無了解,僅僅是從字面上進(jìn)行翻譯,結(jié)果自然失之毫厘,差之千里。 (劉知遠(yuǎn))
解析:emm,這個就不介紹了。
…… ……
……
類似這樣的內(nèi)容,在劉群教授的微博經(jīng)常會出現(xiàn),他也以此為樂。
事實(shí)上,在微博上有一個最大的調(diào)侃聚集地,便是熱門話題 #自然語言理解太難了#:
這里面多是一些國內(nèi)知名的自然語言處理大咖,例如劉群(于2015年首次創(chuàng)建該話題)、馬少平、劉知遠(yuǎn)、邱錫鵬、陳博興、王斌、馬建強(qiáng)等。
只有那些真正熱愛自然語言的人才會時刻關(guān)注著生活當(dāng)中語言的歧義與豐富。我們在此也列舉最近幾天在話題中的部分內(nèi)容,可一窺這個聚集地的燒腦,
「3月8日,是老子的生日」
「這不是為了對手的保護(hù),而是為了對手的保護(hù)」
「中國:我們這邊快忙完了」
回歸原題,所以,你如何用一句話證明學(xué)過 NLP 呢?
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。