0
本文作者: 楊麗 | 2020-04-06 17:27 |
雷鋒網(wǎng)訊,曾幾何時(shí),NLP的ImageNet時(shí)代被許多人所期待,他們希望用于語(yǔ)言任務(wù)的模型也能夠像ImageNet在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用一樣廣泛。
近日,來(lái)自俄羅斯Silero公司的數(shù)據(jù)科學(xué)家Alexander Veysov發(fā)表了一篇名為《語(yǔ)音從業(yè)者對(duì)業(yè)界和學(xué)術(shù)界的批評(píng)》的文章,引發(fā)了不少同行關(guān)注。
他在文中指出,“最近在大眾媒體中,有監(jiān)督機(jī)器學(xué)習(xí)泛濫成風(fēng)。出現(xiàn)這種情況的原因是,無(wú)法兌現(xiàn)的承諾被炒作,使該領(lǐng)域出現(xiàn)了非理性的繁榮和過(guò)度投資。這種情況可能會(huì)導(dǎo)致對(duì)領(lǐng)域的投資不足。”
文中,Alexander Veysov以ImageNet在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛應(yīng)用進(jìn)行對(duì)比,反襯語(yǔ)音轉(zhuǎn)文字(STT)行業(yè)的預(yù)訓(xùn)練模型、遷移學(xué)習(xí)和數(shù)據(jù)集都遠(yuǎn)遠(yuǎn)落后,而計(jì)算要求(正如研究論文中所述)仍然過(guò)高。
據(jù)了解,大部分語(yǔ)音研究是由行業(yè)/企業(yè)贊助的學(xué)者發(fā)表的。為此,作者也將批評(píng)的矛頭轉(zhuǎn)向了業(yè)界與學(xué)界。
首先在業(yè)界,作者表示,大多數(shù)的STT論文出自Google、Facebook、百度等科技公司的研究人員。為此,行業(yè)從業(yè)者需要關(guān)注六個(gè)核心問(wèn)題:一是關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報(bào)告;二是復(fù)雜的框架和工具包;三是解決了不存在的問(wèn)題;四是論文中結(jié)果模糊不清。
例如,像“關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報(bào)告”這一問(wèn)題中,作者指出,Google等公司可能擁有1萬(wàn)甚至10萬(wàn)小時(shí)的私有數(shù)據(jù)集用于訓(xùn)練模型。但問(wèn)題在于,他們使用這些數(shù)據(jù)以提升模型訓(xùn)練卻并沒(méi)有報(bào)告這些數(shù)據(jù)。
眾所周知,語(yǔ)音標(biāo)注需要耗費(fèi)大量的資源和時(shí)間精力。標(biāo)注一段1小時(shí)的語(yǔ)料可能需要2~10小時(shí)不等,這取決于數(shù)據(jù)集的難易程度及是否有其他自動(dòng)標(biāo)簽。這導(dǎo)致了當(dāng)前幾乎所有人都宣稱通過(guò)開(kāi)源數(shù)據(jù)集LibriSpeech進(jìn)行訓(xùn)練得到了最好的結(jié)果,但卻沒(méi)去說(shuō)明這些模型在現(xiàn)實(shí)生活中的表現(xiàn)以及哪些模型投入了生產(chǎn)過(guò)程。因?yàn)橄馟oogle這樣的公司都沒(méi)有明顯的經(jīng)濟(jì)動(dòng)因而開(kāi)源其大型專有數(shù)據(jù)集。總而言之,這為希望構(gòu)建自身STT系統(tǒng)的從業(yè)者設(shè)置了非常高的進(jìn)入門檻。
為什么會(huì)存在復(fù)雜的框架和工具包?作者指出,依靠框架或工具包而非從頭編寫(xiě)是很常見(jiàn)的。如果有專門的框架和工具包,那么最好在框架提供的模型上進(jìn)行構(gòu)建,而不是直接在PyTorch或TensorFlow上構(gòu)建自己的模型。但這在語(yǔ)言任務(wù)中卻需要另當(dāng)別論。原因有很多:
例如,代碼經(jīng)過(guò)優(yōu)化后可在大型計(jì)算機(jī)上運(yùn)行;模型僅適用于小型學(xué)術(shù)數(shù)據(jù)集,且無(wú)法在沒(méi)有大量計(jì)算的情況下擴(kuò)展到大型數(shù)據(jù)集;模型的樣本效率極低等等。
此外,對(duì)于“解決不存在的問(wèn)題”及“無(wú)法復(fù)現(xiàn)的結(jié)果”,作者并未過(guò)多贅述。他認(rèn)為,與最先進(jìn)相反,應(yīng)該更多關(guān)注在“足以在現(xiàn)實(shí)生活中使用的”解決方案和公共數(shù)據(jù)集。
當(dāng)然,除了對(duì)業(yè)界進(jìn)行抨擊外,學(xué)界也未幸免。
一是由于過(guò)于追求SOTA的模型或效果,反而使其失去了意義。因?yàn)槊看斡蠸OTA出現(xiàn)時(shí)原因是不盡相同的,并且不一定是技術(shù)性問(wèn)題,但在機(jī)器學(xué)習(xí)訓(xùn)練中,通常是模型過(guò)度擬合用于某些數(shù)據(jù)集。
學(xué)術(shù)數(shù)據(jù)集將成為公司用來(lái)炫耀實(shí)力的“排行榜”。為達(dá)到最先進(jìn)的水平,盡管小玩家無(wú)法訪問(wèn)大型計(jì)算,但在大型計(jì)算上使用龐大且樣本效率低的網(wǎng)絡(luò)已成為默認(rèn)設(shè)置。
二是在理想情況下,論文應(yīng)足夠詳細(xì),以使獨(dú)立研究人員至少?gòu)?fù)現(xiàn)論文的95%。
三是在現(xiàn)實(shí)中,論文的內(nèi)容和結(jié)構(gòu)通常會(huì)因其實(shí)際目的和現(xiàn)實(shí)生活應(yīng)用而受到質(zhì)疑。例如為了發(fā)表論文,選擇復(fù)雜的計(jì)算方式以解釋某個(gè)新概念,盡管事實(shí)上,研究人員可能從來(lái)不用上述計(jì)算方式或者使用了現(xiàn)成的儀器。
此外,作者還指出研究論文還有一些常見(jiàn)的缺陷,如對(duì)方法的概括含糊不清,隱瞞耗費(fèi)的計(jì)算資源,或者從不公布收斂曲線等等。(雷鋒網(wǎng)雷鋒網(wǎng))
相關(guān)鏈接:https://thegradient.pub/a-speech-to-text-practitioners-criticisms-of-industry-and-academia/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。