來(lái)自語(yǔ)音從業(yè)者的一封批評(píng)信

本文作者：楊麗

2020-04-06 17:27

導(dǎo)語(yǔ)：“這種情況可能會(huì)導(dǎo)致對(duì)領(lǐng)域的投資不足?！?

雷鋒網(wǎng)訊，曾幾何時(shí)，NLP的ImageNet時(shí)代被許多人所期待，他們希望用于語(yǔ)言任務(wù)的模型也能夠像ImageNet在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用一樣廣泛。

近日，來(lái)自俄羅斯Silero公司的數(shù)據(jù)科學(xué)家Alexander Veysov發(fā)表了一篇名為《語(yǔ)音從業(yè)者對(duì)業(yè)界和學(xué)術(shù)界的批評(píng)》的文章，引發(fā)了不少同行關(guān)注。

他在文中指出，“最近在大眾媒體中，有監(jiān)督機(jī)器學(xué)習(xí)泛濫成風(fēng)。出現(xiàn)這種情況的原因是，無(wú)法兌現(xiàn)的承諾被炒作，使該領(lǐng)域出現(xiàn)了非理性的繁榮和過(guò)度投資。這種情況可能會(huì)導(dǎo)致對(duì)領(lǐng)域的投資不足。”

來(lái)自語(yǔ)音從業(yè)者的一封批評(píng)信

文中，Alexander Veysov以ImageNet在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛應(yīng)用進(jìn)行對(duì)比，反襯語(yǔ)音轉(zhuǎn)文字（STT）行業(yè)的預(yù)訓(xùn)練模型、遷移學(xué)習(xí)和數(shù)據(jù)集都遠(yuǎn)遠(yuǎn)落后，而計(jì)算要求（正如研究論文中所述）仍然過(guò)高。

據(jù)了解，大部分語(yǔ)音研究是由行業(yè)/企業(yè)贊助的學(xué)者發(fā)表的。為此，作者也將批評(píng)的矛頭轉(zhuǎn)向了業(yè)界與學(xué)界。

首先在業(yè)界，作者表示，大多數(shù)的STT論文出自Google、Facebook、百度等科技公司的研究人員。為此，行業(yè)從業(yè)者需要關(guān)注六個(gè)核心問(wèn)題：一是關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報(bào)告；二是復(fù)雜的框架和工具包；三是解決了不存在的問(wèn)題；四是論文中結(jié)果模糊不清。

例如，像“關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報(bào)告”這一問(wèn)題中，作者指出，Google等公司可能擁有1萬(wàn)甚至10萬(wàn)小時(shí)的私有數(shù)據(jù)集用于訓(xùn)練模型。但問(wèn)題在于，他們使用這些數(shù)據(jù)以提升模型訓(xùn)練卻并沒(méi)有報(bào)告這些數(shù)據(jù)。

眾所周知，語(yǔ)音標(biāo)注需要耗費(fèi)大量的資源和時(shí)間精力。標(biāo)注一段1小時(shí)的語(yǔ)料可能需要2~10小時(shí)不等，這取決于數(shù)據(jù)集的難易程度及是否有其他自動(dòng)標(biāo)簽。這導(dǎo)致了當(dāng)前幾乎所有人都宣稱通過(guò)開(kāi)源數(shù)據(jù)集LibriSpeech進(jìn)行訓(xùn)練得到了最好的結(jié)果，但卻沒(méi)去說(shuō)明這些模型在現(xiàn)實(shí)生活中的表現(xiàn)以及哪些模型投入了生產(chǎn)過(guò)程。因?yàn)橄馟oogle這樣的公司都沒(méi)有明顯的經(jīng)濟(jì)動(dòng)因而開(kāi)源其大型專有數(shù)據(jù)集。總而言之，這為希望構(gòu)建自身STT系統(tǒng)的從業(yè)者設(shè)置了非常高的進(jìn)入門檻。

為什么會(huì)存在復(fù)雜的框架和工具包？作者指出，依靠框架或工具包而非從頭編寫(xiě)是很常見(jiàn)的。如果有專門的框架和工具包，那么最好在框架提供的模型上進(jìn)行構(gòu)建，而不是直接在PyTorch或TensorFlow上構(gòu)建自己的模型。但這在語(yǔ)言任務(wù)中卻需要另當(dāng)別論。原因有很多：

例如，代碼經(jīng)過(guò)優(yōu)化后可在大型計(jì)算機(jī)上運(yùn)行；模型僅適用于小型學(xué)術(shù)數(shù)據(jù)集，且無(wú)法在沒(méi)有大量計(jì)算的情況下擴(kuò)展到大型數(shù)據(jù)集；模型的樣本效率極低等等。

來(lái)自語(yǔ)音從業(yè)者的一封批評(píng)信

此外，對(duì)于“解決不存在的問(wèn)題”及“無(wú)法復(fù)現(xiàn)的結(jié)果”，作者并未過(guò)多贅述。他認(rèn)為，與最先進(jìn)相反，應(yīng)該更多關(guān)注在“足以在現(xiàn)實(shí)生活中使用的”解決方案和公共數(shù)據(jù)集。

當(dāng)然，除了對(duì)業(yè)界進(jìn)行抨擊外，學(xué)界也未幸免。

一是由于過(guò)于追求SOTA的模型或效果，反而使其失去了意義。因?yàn)槊看斡蠸OTA出現(xiàn)時(shí)原因是不盡相同的，并且不一定是技術(shù)性問(wèn)題，但在機(jī)器學(xué)習(xí)訓(xùn)練中，通常是模型過(guò)度擬合用于某些數(shù)據(jù)集。

學(xué)術(shù)數(shù)據(jù)集將成為公司用來(lái)炫耀實(shí)力的“排行榜”。為達(dá)到最先進(jìn)的水平，盡管小玩家無(wú)法訪問(wèn)大型計(jì)算，但在大型計(jì)算上使用龐大且樣本效率低的網(wǎng)絡(luò)已成為默認(rèn)設(shè)置。

二是在理想情況下，論文應(yīng)足夠詳細(xì)，以使獨(dú)立研究人員至少?gòu)?fù)現(xiàn)論文的95％。

三是在現(xiàn)實(shí)中，論文的內(nèi)容和結(jié)構(gòu)通常會(huì)因其實(shí)際目的和現(xiàn)實(shí)生活應(yīng)用而受到質(zhì)疑。例如為了發(fā)表論文，選擇復(fù)雜的計(jì)算方式以解釋某個(gè)新概念，盡管事實(shí)上，研究人員可能從來(lái)不用上述計(jì)算方式或者使用了現(xiàn)成的儀器。

此外，作者還指出研究論文還有一些常見(jiàn)的缺陷，如對(duì)方法的概括含糊不清，隱瞞耗費(fèi)的計(jì)算資源，或者從不公布收斂曲線等等。（雷鋒網(wǎng)雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊麗

高級(jí)主筆

關(guān)注企業(yè)軟件、操作系統(tǒng)、云原生（PaaS）、數(shù)據(jù)中臺(tái) | 微信：leeyangamber

發(fā)私信

當(dāng)月熱門文章