0
雷鋒網(wǎng)AI科技評論按:抓住時代機遇往往比個人努力更重要。
李飛飛在整個學術(shù)界和工業(yè)界的重心都放在如何做出更好的算法時,她不顧一切質(zhì)疑和阻撓創(chuàng)建了ImageNet數(shù)據(jù)集,至此世人再難復制ImageNet創(chuàng)立過的輝煌。同樣,參加了第一屆ImageNet挑戰(zhàn)賽的競賽優(yōu)勝者,現(xiàn)在都出任了百度、谷歌和華為等公司高管(如林元慶,余凱,張潼)。還有些在獲獎算法基礎(chǔ)上創(chuàng)立公司,如馬修?澤勒(Matthew Zeiler)2013年贏得ImageNet挑戰(zhàn)賽后,創(chuàng)辦了Clarifai公司,之后獲得了4000萬美元風險投資。 2014年的ImageNet挑戰(zhàn)賽冠軍中的兩位牛津大學研究者,賽后很快被谷歌吸收,并進入谷歌收購的DeepMind實驗室工作。 現(xiàn)在,參與ImageNet挑戰(zhàn)賽獲獎的企業(yè)和個人已遍布科技行業(yè)的每個角落。
從歷史經(jīng)驗中不難看出,想要拿到名企實習工作機會,或加速自己的職業(yè)生涯進程,亦或贏得行業(yè)投資者的關(guān)注,參加技術(shù)評測大賽都是一條有效途徑。目前國內(nèi)科研數(shù)據(jù)集規(guī)模最大,平臺資源最豐富,當屬由創(chuàng)新工場、搜狗和今日頭條三家AI企業(yè)同發(fā)起“AI challenger全球AI挑戰(zhàn)賽”。據(jù)悉,該大賽設(shè)立的優(yōu)勝者獎金高達200萬元人民幣。
眾所周知,在人工智能領(lǐng)域,要想獲得好的機器學習模型,數(shù)據(jù)的質(zhì)和量是至關(guān)重要的。高質(zhì)量訓練數(shù)據(jù)對機器學習模型的建立和優(yōu)化一直起著關(guān)鍵性作用。人工智能領(lǐng)域領(lǐng)軍人物李飛飛發(fā)起建立的ImageNet圖片數(shù)據(jù)集曾在計算機視覺、乃至整個人工智能發(fā)展史上都發(fā)揮過里程碑式的作用。李飛飛曾說:“數(shù)據(jù)將重新定義我們對模型的看法“ 。盡管深度學習今后的發(fā)展會趨向于半監(jiān)督或無監(jiān)督學習,但至少從目前來看數(shù)據(jù)的質(zhì)和量仍是科學研究與產(chǎn)品技術(shù)研發(fā)的核心。
雖然深知數(shù)據(jù)對模型的重要性,但在AI Challenger 誕生之前,國內(nèi)人工智能領(lǐng)域成規(guī)模的、大型權(quán)威的評測比賽還是一片空白。反觀國際,無論是在圖像識別領(lǐng)域還是語音交互領(lǐng)域,都已經(jīng)有很多舉辦多年且口碑、效果皆不錯的賽事。AI Challenger 的誕生可謂是給國內(nèi)AI領(lǐng)域大規(guī)模賽事起了一個好頭,而且從官方給出的數(shù)據(jù)集來看,某些方面提供的條件甚至已超過國際同類賽事。
單從機器翻譯這個賽道來說,國際上的評測比賽幾乎全是機器文本翻譯,而AI Challenger 在這個賽道上提供了兩個方向的賽題——英中機器同聲傳譯和英中機器文本翻譯。AI科技評論專程采訪了提供這兩個賽題的設(shè)計方案,同時也是大賽主辦方之一的搜狗科技,為大家介紹更詳細的賽事情況。
在技術(shù)進步和文化擴散的雙重推動下,這個世界總體是在趨向于互通互聯(lián)。不同國家之間平等便捷獲取信息,低成本地有效溝通成為一種強烈需求。從這個意義上講,機器同傳正是為了實現(xiàn)人類打破不同語言壁壘的愿望而生。搜狗語音交互技術(shù)中心總經(jīng)理王硯峰說道:“搜狗是去年十一月在業(yè)界首發(fā)機器同傳,之后在近百場會議現(xiàn)場中演示過,「一邊用中文演講、一邊同步顯示英文翻譯」無論是給講者還是觀眾都帶來了很大的視聽震撼。”
雷鋒網(wǎng)發(fā)現(xiàn)有一段時間經(jīng)常在朋友圈看到「AI將會使同聲傳譯職業(yè)消亡」之類的文章,這或許正是搜狗同傳的出現(xiàn)震撼到了大家!
而實際上,機器同傳離真正的人工同聲傳譯還有一段距離,實時翻譯的速度雖已達到人類水平,甚至超越人類,但翻譯的準確度還有待提高。
機器同傳表面上看來是把語音識別和機器翻譯疊加起來達成的效果,其實這里面還涉及到很多技術(shù)難題,比如語音識別之后的文本后處理,而文本后處理不單單是常見的語句分割,還包括噪聲去除,語氣詞去除等等。正是這些因素直接影響到機器翻譯出來的準確度。
王硯峰總經(jīng)理告訴雷鋒網(wǎng),「目前機器同傳遇到的這些問題還不是一個非常成熟的問題,像如何保證語義完整性,怎么斷句,怎么去除口語等問題,這些都不是一個統(tǒng)一標準,不是大家用一個深度學習模型就能解決好的。通過舉辦評測比賽來解決這類問題,在比賽過程中就會有一些好的自發(fā)創(chuàng)意出來,不管是是技巧性的創(chuàng)意,還是理論上的創(chuàng)新,最終這些創(chuàng)新、創(chuàng)意匯聚起來很可能就會比現(xiàn)有系統(tǒng)處理的效果好。機器同傳吸引大家的還有一點就是看起來很酷,很多具有國際參賽經(jīng)驗的賽手都報名參加了,他們對具有挑戰(zhàn)性,新鮮感的賽題更感興趣,從比賽中獲得的成就感和快樂值也會更高。機器同傳就是一個這樣比較新興的方向,是未來機器翻譯的發(fā)展趨勢。搜狗開創(chuàng)這樣一個賽題,希望能在行業(yè)中引領(lǐng)大家往更實用的方向發(fā)展。」
數(shù)據(jù)集對模型生成的重要性不言而喻,但并不是所有人都知道怎么來評判一個數(shù)據(jù)集的優(yōu)缺點,賽手也幾乎沒有機會接觸并參與到數(shù)據(jù)集的制作過程中。
搜狗在機器翻譯領(lǐng)域中有著深厚的技術(shù)積累,在WMT 2017 中英、英中比賽中取得雙向第一
擁有國際大賽獲獎經(jīng)歷的搜狗機器翻譯技術(shù)團隊,自然會對國際上同類賽事有著比較深刻的觀察和見解,在對數(shù)據(jù)集的評價上也比較有發(fā)言權(quán)。搜狗語音交互技術(shù)中心總監(jiān)陳偉告訴記者,「 NIST,IWSLT,WMT,這三大比賽是機器翻譯界的頂級評測,過去幾年這些比賽放出來的最大有效數(shù)據(jù)量(不包括完全公開的千萬級聯(lián)合國數(shù)據(jù)),其獨有的數(shù)據(jù)量是在兩百到三百萬之間。而AI Challenger賽事中,搜狗提供給參賽者是一千萬獨有數(shù)據(jù)量。這也是最大規(guī)模的口語領(lǐng)域英中比賽數(shù)據(jù)集。」
另外他還向雷鋒網(wǎng)透露一些之前參加 WMT 2017的細節(jié)。他回憶道:“當時我們參加WMT 2017時,主辦方最多給到了六百萬數(shù)據(jù),這些數(shù)據(jù)來自不同的組織和學術(shù)機構(gòu),數(shù)據(jù)的質(zhì)量參差不齊。在參加評測的時候,由于數(shù)據(jù)的噪聲特別大,我們用了三到四個人,處理了兩周才把數(shù)據(jù)清洗完?!?br/>
也許正是體會到了數(shù)據(jù)清洗過程給賽手帶來的干擾和折磨,搜狗在此次AI Challenger 大賽中格外重視賽手的參賽體驗?!拔覀円殉四P退惴ㄒ酝獾臏蕚涔ぷ髯龅綐O致,讓賽手專心跑模型,不被其他因素干擾?!彼f道:“搜狗這次給出的數(shù)據(jù),都是找的專業(yè)譯員一條一條精標過的數(shù)據(jù),這一千萬數(shù)據(jù)標準準確率都在97%以上。用了五十個全職譯員,花了三個月,全力以赴地才把這一千萬數(shù)據(jù)處理完。再加上前期的數(shù)據(jù)抓取,數(shù)據(jù)清洗等一系列準備工作,整個數(shù)據(jù)集的制作花費了大概半年時間?!?/p>
“ 相信在這些精心準備的數(shù)據(jù)前提下,參賽選手可以實現(xiàn)訓練出一個好的機器翻譯系統(tǒng)。" 陳偉總監(jiān)最后滿懷信心地說道。
雷鋒網(wǎng)認為是包括搜狗在內(nèi)的三家大公司提供的GPU資源、與全球AI人才交流的機會,計算平臺,以及學術(shù)專家相關(guān)的技術(shù)指導機會、及直接進入主辦方工作或獲得投資的機會。畢竟現(xiàn)在大多數(shù)在校學生和科研機構(gòu)面臨的共同問題是計算平臺能力不足,數(shù)據(jù)量不夠。當算力和數(shù)據(jù)量都有限制的時候,會嚴重制約在科研上面的的發(fā)展速度。并且科研的最終成果是要到產(chǎn)業(yè)中落地應用,如果只是在實驗室跑算法,模型再好也未必能在真實環(huán)境中經(jīng)得住考驗。搜狗機器翻譯技術(shù)負責人王宇光也向記者表達了相似的觀點。
" 機器翻譯基礎(chǔ)能力,最好的技術(shù)還是在工業(yè)界,搜狗在過去一直專注于直接能在商業(yè)中落地,效果好且實用的算法。另外搜狗在國際評測比賽中也積累了不少經(jīng)驗,也有能力來指導大家做出更好的算法。除了有專門的導師給予指導,搜狗在以往國際評測中使用的技術(shù)也會以評測報告的方式提交出來供大家參考。"
參賽者的正向反饋使得主辦方們對接下來的比賽很有信心。搜狗方面向記者分享了他們目前從賽手身上獲得的一些驚喜。
第一,參賽的隊伍比預期要多。目前英中文本翻譯和同傳賽道提交的結(jié)果的隊伍已經(jīng)有百多支。
第二,比賽報名除了來自于一些做機器翻譯的學校研究組或者研究機構(gòu)以外,還有來自于其它相似研究方向的選手,例如NLP機器翻譯之外的研究方向。
另外賽手在后臺對于賽制規(guī)則不清楚之處,或賽題不明白之處也做出了一些反饋,他們也都給了詳細解答。
隨著賽事的推進,搜狗負責大賽服務的團隊也從參賽者的反饋中看到了一些存在的問題,比如,選手可能會使用外部數(shù)據(jù)集來提升效果,這是大賽不推薦的。
雷鋒網(wǎng)了解到,搜狗采取的措施是:首先比賽要求選手不能使用外部數(shù)據(jù)集合進行訓練,對于使用外部數(shù)據(jù)的結(jié)果系統(tǒng)不參與最終頒獎排名。此外,要求選手提交比賽系統(tǒng)詳細報告。最終要求選手參與答辯。這樣可以最大程度過濾掉一些“刷分”行為。
雷鋒網(wǎng)小結(jié):AI Challenger 的全球AI挑戰(zhàn)賽提供的數(shù)據(jù)集,源自真實生活應用場景都是從工業(yè)而來,從現(xiàn)實應用中獲取,這無疑會對算法的開發(fā)以及實用性評估帶來更多的現(xiàn)實意義。此次搜狗與創(chuàng)新工場、今日頭條搜狗語音技術(shù)團隊在他們自己的賽道上聯(lián)合,投入了巨大的人力,物力和計算資源,目的就是希望能和大家一起來發(fā)揮聰明才智,共同把機器同傳做的更成熟,更有社會應用價值。有過從業(yè)經(jīng)驗的行業(yè)人士都知道,從企業(yè)中獲取大規(guī)模數(shù)據(jù)并不容易,企業(yè)主動開放共享數(shù)據(jù)集更是難得一見。這樣的機遇并不是年年都有,希望已經(jīng)在積極備賽的選手都能收獲自己滿意的成績,從比賽中得到能力的鍛煉和水平的提升,早日走向人生巔峰!
大賽報名鏈接:https://challenger.ai/
相關(guān)文章:
國內(nèi)首屆AI Challenger正式開賽,數(shù)據(jù)集已開放下載(附賽程安排)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。