0
雷鋒網(wǎng)訊,曾幾何時,NLP的ImageNet時代被許多人所期待,他們希望用于語言任務(wù)的模型也能夠像ImageNet在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用一樣廣泛。
近日,來自俄羅斯Silero公司的數(shù)據(jù)科學(xué)家Alexander Veysov發(fā)表了一篇名為《語音從業(yè)者對業(yè)界和學(xué)術(shù)界的批評》的文章,引發(fā)了不少同行關(guān)注。
他在文中指出,“最近在大眾媒體中,有監(jiān)督機(jī)器學(xué)習(xí)泛濫成風(fēng)。出現(xiàn)這種情況的原因是,無法兌現(xiàn)的承諾被炒作,使該領(lǐng)域出現(xiàn)了非理性的繁榮和過度投資。這種情況可能會導(dǎo)致對領(lǐng)域的投資不足?!?/p>
文中,Alexander Veysov以ImageNet在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用進(jìn)行對比,反襯語音轉(zhuǎn)文字(STT)行業(yè)的預(yù)訓(xùn)練模型、遷移學(xué)習(xí)和數(shù)據(jù)集都遠(yuǎn)遠(yuǎn)落后,而計(jì)算要求(正如研究論文中所述)仍然過高。
據(jù)了解,大部分語音研究是由行業(yè)/企業(yè)贊助的學(xué)者發(fā)表的。為此,作者也將批評的矛頭轉(zhuǎn)向了業(yè)界與學(xué)界。
首先在業(yè)界,作者表示,大多數(shù)的STT論文出自Google、Facebook、百度等科技公司的研究人員。為此,行業(yè)從業(yè)者需要關(guān)注六個核心問題:一是關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報告;二是復(fù)雜的框架和工具包;三是解決了不存在的問題;四是論文中結(jié)果模糊不清。
例如,像“關(guān)注基于私有數(shù)據(jù)的解決方案而非清楚地報告”這一問題中,作者指出,Google等公司可能擁有1萬甚至10萬小時的私有數(shù)據(jù)集用于訓(xùn)練模型。但問題在于,他們使用這些數(shù)據(jù)以提升模型訓(xùn)練卻并沒有報告這些數(shù)據(jù)。
眾所周知,語音標(biāo)注需要耗費(fèi)大量的資源和時間精力。標(biāo)注一段1小時的語料可能需要2~10小時不等,這取決于數(shù)據(jù)集的難易程度及是否有其他自動標(biāo)簽。這導(dǎo)致了當(dāng)前幾乎所有人都宣稱通過開源數(shù)據(jù)集LibriSpeech進(jìn)行訓(xùn)練得到了最好的結(jié)果,但卻沒去說明這些模型在現(xiàn)實(shí)生活中的表現(xiàn)以及哪些模型投入了生產(chǎn)過程。因?yàn)橄馟oogle這樣的公司都沒有明顯的經(jīng)濟(jì)動因而開源其大型專有數(shù)據(jù)集??偠灾?,這為希望構(gòu)建自身STT系統(tǒng)的從業(yè)者設(shè)置了非常高的進(jìn)入門檻。
為什么會存在復(fù)雜的框架和工具包?作者指出,依靠框架或工具包而非從頭編寫是很常見的。如果有專門的框架和工具包,那么最好在框架提供的模型上進(jìn)行構(gòu)建,而不是直接在PyTorch或TensorFlow上構(gòu)建自己的模型。但這在語言任務(wù)中卻需要另當(dāng)別論。原因有很多:
例如,代碼經(jīng)過優(yōu)化后可在大型計(jì)算機(jī)上運(yùn)行;模型僅適用于小型學(xué)術(shù)數(shù)據(jù)集,且無法在沒有大量計(jì)算的情況下擴(kuò)展到大型數(shù)據(jù)集;模型的樣本效率極低等等。
此外,對于“解決不存在的問題”及“無法復(fù)現(xiàn)的結(jié)果”,作者并未過多贅述。他認(rèn)為,與最先進(jìn)相反,應(yīng)該更多關(guān)注在“足以在現(xiàn)實(shí)生活中使用的”解決方案和公共數(shù)據(jù)集。
當(dāng)然,除了對業(yè)界進(jìn)行抨擊外,學(xué)界也未幸免。
一是由于過于追求SOTA的模型或效果,反而使其失去了意義。因?yàn)槊看斡蠸OTA出現(xiàn)時原因是不盡相同的,并且不一定是技術(shù)性問題,但在機(jī)器學(xué)習(xí)訓(xùn)練中,通常是模型過度擬合用于某些數(shù)據(jù)集。
學(xué)術(shù)數(shù)據(jù)集將成為公司用來炫耀實(shí)力的“排行榜”。為達(dá)到最先進(jìn)的水平,盡管小玩家無法訪問大型計(jì)算,但在大型計(jì)算上使用龐大且樣本效率低的網(wǎng)絡(luò)已成為默認(rèn)設(shè)置。
二是在理想情況下,論文應(yīng)足夠詳細(xì),以使獨(dú)立研究人員至少復(fù)現(xiàn)論文的95%。
三是在現(xiàn)實(shí)中,論文的內(nèi)容和結(jié)構(gòu)通常會因其實(shí)際目的和現(xiàn)實(shí)生活應(yīng)用而受到質(zhì)疑。例如為了發(fā)表論文,選擇復(fù)雜的計(jì)算方式以解釋某個新概念,盡管事實(shí)上,研究人員可能從來不用上述計(jì)算方式或者使用了現(xiàn)成的儀器。
此外,作者還指出研究論文還有一些常見的缺陷,如對方法的概括含糊不清,隱瞞耗費(fèi)的計(jì)算資源,或者從不公布收斂曲線等等。(雷鋒網(wǎng)雷鋒網(wǎng))
相關(guān)鏈接:https://thegradient.pub/a-speech-to-text-practitioners-criticisms-of-industry-and-academia/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。