0
本文作者: camel | 2019-07-23 13:15 |
雷鋒網(wǎng)按:2013年,Tomas Mikolov發(fā)表的《Efficient estimation of word representations in vector space》,目前引用率已經(jīng)超過11K。除了其詞向量的貢獻(xiàn)外,一個(gè)讓人印象深刻的貢獻(xiàn)便是指出NLP中「詞類比」的現(xiàn)象,最經(jīng)典的例子莫過于「國王-男人+女人=皇后」。
Mikolov在另外一篇引用率極高的文章《Linguistic regularities in continuous space word representations》中也著重強(qiáng)調(diào)了在連續(xù)空間詞表示的語言規(guī)律。
此后,關(guān)于詞類比的研究此起彼伏,有諸多相關(guān)論文發(fā)表,雷鋒網(wǎng)AI科技評(píng)論在一周前也曾發(fā)表過一篇ACL 2019論文解讀,介紹詞類比的理論解釋:「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019。
但是,在NLP中太過美好的事情往往都存在潛在的風(fēng)險(xiǎn)。
馬薩諸塞大學(xué)(洛厄爾分校)文本機(jī)器實(shí)驗(yàn)室的 Anna Rogers 近日發(fā)表一篇博客,指出了詞類比存在的問題以及由此引發(fā)的「如何讓錯(cuò)誤結(jié)論停止傳播」的問題,值得我們思考。
據(jù)我所知,首次對(duì)矢量偏移(vector offset)提出質(zhì)疑的是K?per等人發(fā)現(xiàn)它在詞典關(guān)系( lexicographic relations )中并不適用[1],后來Karpinska等人證實(shí)了這個(gè)結(jié)論[2]。
之后,Gladkova等人的工作發(fā)現(xiàn),BATS數(shù)據(jù)集提供的包含40類關(guān)系的更大平衡樣本中,矢量偏移僅適用于恰好包含原始Google 數(shù)據(jù)集中的那部分[3]。如下圖所示,40類關(guān)系中僅「形態(tài)較差語言中的屈折形態(tài)」和「國家 : 首都」這類詞才能取得較高的準(zhǔn)確率。
如果語言關(guān)系能夠如Mikolov等人文章中所說的那樣整齊和規(guī)律,那么為什么這個(gè)規(guī)律(詞類比)不能概括所有詞呢?
一些研究工作證明,如果 3 個(gè)源詞(source words)沒有從待選答案集中排除的話,詞類比就不會(huì)起作用。例如在 king-man+woman=queen的這個(gè)結(jié)論中,king、man和woman的向量是被排除在可能的答案集之外的。Tal Linzen的工作[4]表明,不用詞類比,你只需要簡單地獲取woman最近鄰的詞,或者同時(shí)與woman和king(沒有man)最相似的詞,便可以獲得相當(dāng)高的準(zhǔn)確率。在Rogers等人[5]的工作中指出,如果你不排除 3 個(gè)源詞的話會(huì)發(fā)生什么:
其中a、a’、b是源向量,b’是目標(biāo)向量??梢钥闯?,在大多數(shù)情況下詞類比的最好結(jié)果竟然是 b(也即 woman)。
如果在大多數(shù)情況下預(yù)測(cè)向量都是最接近woman向量,這就意味著矢量偏移太小,偏移本身并沒有產(chǎn)生實(shí)質(zhì)性意義,你的結(jié)果仍然停留在源向量附近。
Rogers等人的研究還指出,如果源向量a(“man”),a’(king)和b(“woman”)被排除在外,那么你成功的可能性取決于正確答案與源詞的接近程度,從下圖可以看出:
你可以能會(huì)反對(duì)說:出現(xiàn)以上問題的原因是不良的詞嵌入,理想的嵌入能夠編碼所有可能的關(guān)系以便能夠通過矢量偏移來得到目標(biāo)向量。
這種反對(duì)目前來看,只能期望通過未來的實(shí)驗(yàn)來驗(yàn)證了。
但從理論角度來看,即使理想的嵌入也不可能得出通用的詞類比關(guān)系,原因如下:
(1)從語義角度,操縱向量差的想法讓人想起上世紀(jì)50年代的成分分析方法,針對(duì)成分分析已經(jīng)有充足的理由來說明為什么不值得繼續(xù)發(fā)展,例如“man”+“unmarried”作為“bachelor”(單身漢)的定義是否適用于“Pope”(教皇)?
(2)從分布角度,即使看似完美的類比(如,cat:cats與table:tables)也并不完美。例如 turn the tables (翻桌子)與turn the table(轉(zhuǎn)過桌子)并不相似,它們出現(xiàn)在不同的上下文中,而這種差異在cat:cats中卻不存在。鑒于這樣的差異成千上萬,我們?cè)趺茨軌蚱谕傮w能夠表現(xiàn)出完美的類比規(guī)則呢?如果真的這樣做了,它們能夠很好地代表語言語義嗎?如果我們想獲得良好的語言生成,我們就需要考慮到這種細(xì)微的差異,而不是粗暴地忽略它們。
總結(jié)來說,以上幾篇論文對(duì)懷疑矢量偏移效果提供了充分的理由。矢量偏移似乎更適用于小的原始數(shù)據(jù)集,前提是預(yù)測(cè)目標(biāo)要事先排除掉源向量;其成功的部分原因可歸結(jié)為基本余弦相似性,但它無法概括為更廣泛的語言關(guān)系。
我寫這篇文章的重點(diǎn),想說的并不僅僅是上面提到的關(guān)于矢量偏移的負(fù)面證據(jù),而是這些負(fù)面結(jié)果以及相關(guān)的報(bào)告從來沒有被受Mikolov論文影響的那成千上萬的研究者所廣泛了解。
這種現(xiàn)象也很容易理解。對(duì)于一個(gè)廣泛傳播的謠言,即使后期有諸多辟謠,也無法覆蓋所有被影響的人。因此,辟謠是重要的,對(duì)辟謠的廣泛支持和傳播更為重要。
在科學(xué)領(lǐng)域,如果對(duì)一篇被廣泛引用但有瑕疵的論文的結(jié)論進(jìn)行更新,那么快速傳播這種更新的結(jié)論符合每個(gè)研究人員的利益,這可以節(jié)省更多研究人員浪費(fèi)在原始未經(jīng)測(cè)試的假設(shè)上的努力。
然而不幸的是,以上提到的那些研究成果,僅有一篇發(fā)表在頂會(huì)上(Schluter, NAACL 2018),這或許并非巧合。 作為對(duì)比,現(xiàn)在已經(jīng)有兩篇ACL論文、一篇COLING論文和ICML的一篇最佳論文為矢量偏移能起作用提供數(shù)學(xué)證明[6][7][8][9]。注意,Schluter的論文也是采用了數(shù)學(xué)的觀點(diǎn),卻得出了完全相反的結(jié)論。
當(dāng)然我對(duì)矢量偏移持完全開放的態(tài)度,它有可能是對(duì)的,但也可能是錯(cuò)的。如果前者,那么說明我們擁有了一個(gè)直觀、方便且可靠的方法來進(jìn)行類比推理。但必須要強(qiáng)調(diào)的是,目前那些證明矢量偏移有效的論文并沒有解決它的負(fù)面證據(jù)。
考慮假如上面的那些負(fù)面證據(jù)是正確的,那對(duì)該領(lǐng)域該有多大的影響?這意味著我們大多數(shù)人正在追求一個(gè)簡單卻不真實(shí)的語言關(guān)系模型,許多從業(yè)者在實(shí)際工作中也在使用這種方法。
總結(jié):類比推理是人類推理中一個(gè)非常重要的方面,如果我們要達(dá)到通用人工智能,我們必須做到正確。截止目前為止,從我所看到的,詞嵌入的線性矢量偏移并不是正確的思考方式。但除了它,還有許多其他的方向,包括一些更好的推理方法[][],或許我們也該嘗試一下其他更有希望的方向。
矢量偏移的問題并不是個(gè)別現(xiàn)象。它是一類模式的代表:(1)有一個(gè)閃亮的結(jié)果,直觀、有吸引力,然后又因?yàn)檫^于出名而少有質(zhì)疑;(2)負(fù)面的結(jié)果可見度低,并不為大多數(shù)人所注意。
在NLP領(lǐng)域,后者因?yàn)榻陙鞟rxiv論文暴漲而加劇。當(dāng)你連自己想要閱讀的論文列表都讀不完時(shí),哪還有心思去關(guān)注哪些小眾的引用率低的論文?最自然的選擇就是,重點(diǎn)關(guān)注引用率最高的哪些。
事實(shí)上,很難讓負(fù)面結(jié)果變得如那些明星論文一樣性感,正如辟謠從來沒有謠言傳播力大一樣。
但我認(rèn)為,可以通過某種機(jī)制來改善這種情況。為什么我們不在ACL這樣會(huì)議上設(shè)立負(fù)面結(jié)果的獎(jiǎng)勵(lì)呢,這可以鼓勵(lì)人們對(duì)那些被廣泛接受的假設(shè)進(jìn)行事實(shí)核查?這將:
提高對(duì)流行問題的認(rèn)識(shí),使人們不會(huì)在不牢靠的假設(shè)基礎(chǔ)上進(jìn)行進(jìn)一步工作;
確定明年需要更多人手的高產(chǎn)研究方向,從而刺激NLP的整體進(jìn)展;
通過鼓勵(lì)研究和報(bào)告負(fù)面結(jié)果來減少錯(cuò)誤重復(fù)的問題。
例如NAACL 2019上就有幾篇有意思的論文就可以獲得此種類型的獎(jiǎng):
exposing the lack of transfer between QA datasets (Yatskar, 2019)
limitations of attention as “explaining” mechanism (Jain & Wallace, 2019)
multimodal QA systems that work better by simply ignoring some of the input modalities (Thomason, Gordon, & Bisk, 2019)
這三篇論文中有兩篇都只是poster paper。我無法想象有多少類似的工作甚至都沒有通過評(píng)審。我覺得這對(duì)做類似重要工作的人發(fā)出了一個(gè)錯(cuò)誤的信號(hào),告訴他們明年不要做這種類型的工作了。很悲哀!
想象一下,假如有這樣一個(gè)獎(jiǎng),并且被授予給Yatskar。那么參加這個(gè)會(huì)議的每個(gè)人(甚至更多人)都會(huì)知道三個(gè)流行的問答數(shù)據(jù)集之間缺乏遷移。QA是最流行的任務(wù)之一,所有如果能夠讓整個(gè)社區(qū)知道這個(gè)問題,來年就會(huì)有更多的人去解決QA中的這個(gè)問題,而不是單純地集中在某一個(gè)數(shù)據(jù)集上進(jìn)行研究。
負(fù)面結(jié)果的論文,應(yīng)當(dāng)被重視,也應(yīng)當(dāng)被強(qiáng)調(diào)!
雷鋒網(wǎng)報(bào)道!
參考資料:
[1] K?per, M., Scheible, C., & im Walde, S. S. (2015). Multilingual Reliability and "Semantic" Structure of Continuous Word Spaces. Proceedings of the 11th International Conference on Computational Semantics, 40–45. Association for Computational Linguistics.
[2] Karpinska, M., Li, B., Rogers, A., & Drozd, A. (2018). Subcharacter Information in Japanese Embeddings: When Is It Worth It? Proceedings of the Workshop on the Relevance of Linguistic Structure in Neural Architectures for NLP, 28–37. Melbourne, Australia: Association for Computational Linguistics.
[3] Gladkova, A., Drozd, A., & Matsuoka, S. (2016). Analogy-Based Detection of Morphological and Semantic Relations with Word Embeddings: What Works and What Doesn’t. Proceedings of the NAACL-HLT SRW, 47–54. https://doi.org/10.18653/v1/N16-2002
[4] Linzen, T. (2016). Issues in Evaluating Semantic Spaces Using Word Analogies. Proceedings of the First Workshop on Evaluating Vector Space Representations for NLP. https://doi.org/http://dx.doi.org/10.18653/v1/W16-2503
[5]Rogers, A., Drozd, A., & Li, B. (2017). The (Too Many) Problems of Analogical Reasoning with Word Vectors. Proceedings of the 6th Joint Conference on Lexical and Computational Semantics (* SEM 2017), 135–148.
[6] Gittens, A., Achlioptas, D., & Mahoney, M. W. (2017). Skip-Gram - Zipf + Uniform = Vector Additivity. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 69–76. https://doi.org/10.18653/v1/P17-1007
[7] Hakami, H., Hayashi, K., & Bollegala, D. (2018). Why Does PairDiff Work? - A Mathematical Analysis of Bilinear Relational Compositional Operators for Analogy Detection. Proceedings of the 27th International Conference on Computational Linguistics, 2493–2504.
[8] Ethayarajh, K., Duvenaud, D., & Hirst, G. (2019). Towards Understanding Linear Word Analogies. To Appear in ACL 2019.
[9] Allen, C., & Hospedales, T. (2019). Analogies Explained: Towards Understanding Word Embeddings. ArXiv:1901.09813 [Cs, Stat].
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。