丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給趙晨希
發(fā)送

0

央視AI唱作大熱背后是怎樣的技術(shù)?

本文作者: 趙晨希 2019-03-05 16:37
導(dǎo)語(yǔ):NLP的歷史幾乎與計(jì)算機(jī)和人工智能AI的歷史一樣長(zhǎng)。

春節(jié)期間,央視新聞新媒體推出了一款交互產(chǎn)品《你的生活,AI為你唱作》,該款產(chǎn)品是央視新聞聯(lián)合微軟全新打造的移動(dòng)互聯(lián)網(wǎng)交互產(chǎn)品?!赌愕纳睿珹I為你唱作》融媒體交互產(chǎn)品利用了微軟智能云,包括計(jì)算機(jī)視覺(jué) (Computer Vision)、人臉識(shí)別(Face Recognition)、自然語(yǔ)言處理(NLP)、定制語(yǔ)音(Custom Voice)等業(yè)內(nèi)領(lǐng)先的AI技術(shù)。

央視AI唱作大熱背后是怎樣的技術(shù)?

首先,在用戶(hù)上傳圖片之后,計(jì)算機(jī)視覺(jué)和人臉識(shí)別等技術(shù)將對(duì)照片內(nèi)容如環(huán)境、人物、顏色、表情、主題等進(jìn)行分析;然后基于對(duì)照片的綜合理解,智能歌詞創(chuàng)作系統(tǒng)會(huì)自動(dòng)譜寫(xiě)符合該照片內(nèi)容的不同的歌詞;最后,由語(yǔ)音合成技術(shù)模擬的央視主持人康輝或微軟智能女聲曉曉會(huì)根據(jù)歌詞內(nèi)容結(jié)合配樂(lè)伴奏進(jìn)行生動(dòng)的演唱。用戶(hù)就這樣,得到了自己專(zhuān)屬定制的MP3歌曲。

根據(jù)官方數(shù)據(jù)統(tǒng)計(jì)結(jié)果,《你的生活,AI為你唱作》在央視新聞新媒體各平臺(tái)上線僅2小時(shí),用戶(hù)參與量就超過(guò)了300萬(wàn)人次,截至2019年2月8日,在各平臺(tái)閱讀量3800萬(wàn),利用AI聲音創(chuàng)作視頻閱讀量3500萬(wàn),微博相關(guān)話題閱讀量2700萬(wàn),AI相關(guān)產(chǎn)品在央視新聞各賬號(hào)總閱讀量已超過(guò)1億。以上數(shù)據(jù)直觀的顯示出,該融媒體產(chǎn)品的受歡迎程度。

AI應(yīng)用產(chǎn)品大規(guī)模爆發(fā),正值新舊媒體交替,融合發(fā)展之際。借此節(jié)點(diǎn),近日,雷鋒網(wǎng)與其它兩家媒體,一同對(duì)參與這個(gè)項(xiàng)目的微軟多個(gè)團(tuán)隊(duì)進(jìn)行了采訪。

受訪人:

  • 李冕 微軟(中國(guó))資深產(chǎn)品市場(chǎng)經(jīng)理

  • 韋福如 微軟亞洲研究院自然語(yǔ)言計(jì)算組資深研究員

  • 李迎彤 微軟亞太研發(fā)集團(tuán)云計(jì)算與人工智能事業(yè)部微軟新視界創(chuàng)新總監(jiān)

  • 劉越穎 微軟亞洲互聯(lián)網(wǎng)工程院語(yǔ)音組產(chǎn)品經(jīng)理

AI唱作交互產(chǎn)品,背后的“故事”

在《你的生活,AI為你唱作》融媒體交互產(chǎn)品中,無(wú)論是央視主持人康輝,還是微軟智能女聲曉曉,均采用了微軟深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù)。微軟的深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成服務(wù),是基于端到端的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和聲音合成系統(tǒng)開(kāi)發(fā)的。通過(guò)優(yōu)化發(fā)音和韻律,該技術(shù)可以比傳統(tǒng)的語(yǔ)音合成技術(shù)生成更逼真、更自然的人工智能聲音。其中,康輝的聲音更是用到了基于深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型的定制化語(yǔ)音技術(shù)。微軟的定制服務(wù)平臺(tái)僅需要使用說(shuō)話人的少量語(yǔ)音數(shù)據(jù),就可以制作出高質(zhì)量的不同風(fēng)格的智能語(yǔ)音,而在這個(gè)項(xiàng)目中,康輝的說(shuō)唱風(fēng)格就是基于不到半小時(shí)的數(shù)據(jù)訓(xùn)練的。

而微軟智能女聲曉曉則是微軟面向全球開(kāi)發(fā)者和合作伙伴發(fā)布的一個(gè)通用聲音。該聲音可以通過(guò)微軟認(rèn)知服務(wù)平臺(tái)(Azure Cognitive Services)提供的API接口進(jìn)行實(shí)時(shí)調(diào)用。用戶(hù)們可以直接將曉曉的聲音用于智能助理、智能客服、智能汽車(chē)、智能朗讀等場(chǎng)景中。據(jù)劉越穎介紹,一個(gè)有趣的現(xiàn)象是,在《你的生活,AI為你創(chuàng)作》產(chǎn)品中,曉曉聲音的使用次數(shù)超過(guò)了康輝老師的次數(shù)。這也體現(xiàn)出大家對(duì)微軟智能女聲曉曉的喜愛(ài)。

微軟語(yǔ)音組提到,在《你的生活,AI為你唱作》產(chǎn)品中,主要的語(yǔ)音技術(shù)特點(diǎn)為:

  • 產(chǎn)品化的基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成技術(shù)

  • 定制語(yǔ)音合成所需訓(xùn)練數(shù)據(jù)量更少(康輝的數(shù)據(jù)不到一個(gè)小時(shí))。

  • 深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成模型讓聲音更逼真和自然

  • 語(yǔ)音合成可以擴(kuò)展到多種說(shuō)話的風(fēng)格(比如這次的說(shuō)唱風(fēng)格)

  • 平臺(tái)化的定制語(yǔ)音讓開(kāi)發(fā)周期更短

同時(shí),微軟語(yǔ)音團(tuán)隊(duì)也提到了其它方面的特點(diǎn):

  • 靈活的部署方案:支持公有云部署;私有化部署;離線部署

  • 多語(yǔ)言國(guó)際化支持:微軟語(yǔ)音合成支持全球49個(gè)語(yǔ)言,近80個(gè)聲音。深度神經(jīng)網(wǎng)絡(luò)支持中文和英文。

  • 工業(yè)云計(jì)算平臺(tái):微軟語(yǔ)音合成支持全球十幾個(gè)數(shù)據(jù)中心;深度神經(jīng)網(wǎng)絡(luò)可以達(dá)到產(chǎn)品級(jí)的實(shí)時(shí)率;支持高并發(fā)。

  • 全系列語(yǔ)音支持:微軟語(yǔ)音可以提供整套的語(yǔ)音識(shí)別,翻譯,語(yǔ)音合成等解決方案,可以支持智能客服,翻譯等場(chǎng)景。利用微軟語(yǔ)音解決方已經(jīng)落地的場(chǎng)景如小米9手機(jī)王源聲音的定制,ROOBO智能機(jī)器人、智能會(huì)議系統(tǒng),微軟翻譯,微軟聽(tīng)聽(tīng)文檔等。

正如李迎彤所說(shuō),應(yīng)用要瞬間觸達(dá)到很多人的手機(jī)上。高并發(fā)且巨量的網(wǎng)絡(luò)和計(jì)算需求,背后需要強(qiáng)大的云端基礎(chǔ)設(shè)施做支持。

其實(shí),微軟與央視新聞的合作,源于CCTV團(tuán)隊(duì)春節(jié)前在微軟新視界技術(shù)展示中心的一次參觀。用李冕的話來(lái)說(shuō),此次合作偶然中帶著必然,一方面,AI技術(shù)不斷出現(xiàn)重大突破。例如去年9月份,微軟率先發(fā)布了企業(yè)級(jí)定制語(yǔ)音合成平臺(tái),企業(yè)可以根據(jù)自己想要的音色來(lái)微軟的平臺(tái)上定制聲音。去年12月份,微軟在語(yǔ)音方面進(jìn)一步實(shí)現(xiàn)重大的技術(shù)突破,即深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù),一下子讓原來(lái)的語(yǔ)音合成領(lǐng)域,很多不能做到的都可以實(shí)現(xiàn)了。具體而言,自然度方面可以更加像人類(lèi),語(yǔ)氣、情感方面也得到很大的提升。

另一方面,在行業(yè)“轉(zhuǎn)型”的大環(huán)境下,傳統(tǒng)媒體正向新媒體融合發(fā)展。傳統(tǒng)企業(yè)也需要與新興技術(shù)、新興產(chǎn)業(yè)結(jié)合,順應(yīng)時(shí)代的潮流,承接未來(lái)的要求。其實(shí),無(wú)論是小米9王源定制版聲音、央視主持人康輝定制版聲音,還是去年微軟小冰入駐小米智能音箱、華為手機(jī),均體現(xiàn)了微軟的全方位AI能力。未來(lái)無(wú)論是視覺(jué)、聽(tīng)覺(jué),還是語(yǔ)音,在制造業(yè)、零售、媒體、教育、醫(yī)療、金融等諸多領(lǐng)域會(huì)都有相當(dāng)廣泛的應(yīng)用場(chǎng)景。

特別是,此次與央視新聞合作的融媒體產(chǎn)品,是來(lái)自微軟基礎(chǔ)研究的自然語(yǔ)言部門(mén),以及語(yǔ)音產(chǎn)品部門(mén)、智能云產(chǎn)品部門(mén)和市場(chǎng)部門(mén)的能人們跨部門(mén)組成項(xiàng)目組,在不到一個(gè)月的時(shí)間內(nèi)與央視深度合作,實(shí)現(xiàn)了將用戶(hù)輸入圖片以Rap的方式唱出來(lái)的即時(shí)體驗(yàn),融合了多項(xiàng)微軟的AI和云服務(wù)。

央視AI唱作大熱背后是怎樣的技術(shù)?

(雷鋒網(wǎng)注:微軟亞洲研究院自然語(yǔ)言計(jì)算組資深研究員韋福如

從幕后走到臺(tái)前,很多“Highlight”

提問(wèn):微軟與央視新聞合作,背后有著怎樣的考量?

李冕:最初當(dāng)央視提出來(lái)合作需求的時(shí)候,我們考慮過(guò)幾個(gè)方向。首先一定是用戶(hù)體驗(yàn)要好。其次,盡管時(shí)間緊,但是當(dāng)時(shí)我們想,微軟在AI的各個(gè)方面都有相當(dāng)多的技術(shù)積累,可以說(shuō)是全棧式的,那么我們把步子就邁得更大一些。其實(shí)這個(gè)項(xiàng)目里用到了很多的不同AI技術(shù),如圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音合成等,以及微軟智能云的能力。

所以,最后我們決定在春節(jié)這個(gè)特殊的時(shí)間節(jié)點(diǎn),和CCTV一起推出來(lái)給廣大的用戶(hù)、網(wǎng)民們一個(gè)比較好玩和溫暖的產(chǎn)品體驗(yàn)。同時(shí),對(duì)于微軟內(nèi)部而言也是檢閱AI和云各部門(mén)快速協(xié)同和落地能力的機(jī)會(huì),所以當(dāng)時(shí)我們就去做了這個(gè)項(xiàng)目。

提問(wèn):整個(gè)合作過(guò)程有哪些難點(diǎn)?

韋福如:從自然語(yǔ)言方面來(lái)講,用戶(hù)對(duì)歌詞的要求是什么,有一些不同的地方。因?yàn)楦柙~講究更接近生活,朗朗上口。輸入部分,要從圖片里獲得盡可能多的信息。如最基本的要知道圖片中是什么環(huán)境,有什么物體,有沒(méi)有人,有幾個(gè)人,大概年齡等等。還有一些更細(xì)致的內(nèi)容,比如,人的性別,表情如何,顏色背景等等……我們需要把這些圖像處理的結(jié)果映射到歌詞生成用到的關(guān)鍵詞,然后再用基于深度學(xué)習(xí)的歌詞創(chuàng)作模型一句一句生成整首歌詞。但事實(shí)上,圖片識(shí)別的一般結(jié)果從數(shù)量和類(lèi)別上都很難滿(mǎn)足歌曲作詞所需要的想象力要求,這就需要我們把這些信息再處理到更細(xì)致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。一般歌詞有十來(lái)句,甚至一二十句,所以需要做更多的處理。  

同時(shí),還需要基于很多數(shù)據(jù)。數(shù)據(jù)方面大家很容易想到的是歌詞,我們抓取了很多歌詞。用戶(hù)從生成的歌詞中應(yīng)該感受到了中國(guó)傳統(tǒng)文化的氣息,這其中我們使用了宋詞去訓(xùn)練模型。另外一個(gè)難點(diǎn),大家熟悉的歌詞或者宋詞,整體上可能感物思人、傷春悲秋的比較多。但是春節(jié)期間,我們希望大家都開(kāi)開(kāi)心心。所以在這方面我們也在算法上做了調(diào)整。比如我們會(huì)盡可能讓算法生成積極一些的句子,另外包括有一些多音字,也會(huì)做相應(yīng)處理。所以從技術(shù)上來(lái)講,一個(gè)是長(zhǎng)期的積累,包括技術(shù)和文化;第二個(gè)是針對(duì)這樣特殊的應(yīng)用,做一些細(xì)節(jié)上的適應(yīng)調(diào)整。

當(dāng)然,人類(lèi)的創(chuàng)造能力是很強(qiáng)的,機(jī)器的優(yōu)勢(shì)則更多表現(xiàn)在記憶。比如韻律,一般人不太容易掌握,但是對(duì)于機(jī)器和算法來(lái)說(shuō),則很容易做到?;A(chǔ)研究上還有很多很長(zhǎng)的路要走,AI在創(chuàng)造內(nèi)容方面的能力還是有限的。

提問(wèn):不管TTS(Text to Speech)也好,還是圖象識(shí)別也好,遇到的最大困難是什么,怎樣解決的?

韋福如:比較難的是,通過(guò)圖像輸出給出歌詞還是太抽象了。比如,它只知道里面有人臉,只知道里面有人,或者只知道里面有幾個(gè)人。這種情況下,去寫(xiě)歌詞非常難,所以我們需要把這些信息處理到更細(xì)致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。歌詞有十來(lái)句,甚至一二十句,實(shí)際上要做更多的處理。  

李冕:我們的場(chǎng)景有點(diǎn)像是小學(xué)語(yǔ)文考試?yán)锩娴目磮D作文,給你一張圖。當(dāng)然我們這個(gè)是彩色圖,那個(gè)是一張圖或者是兩張圖,然后讓你編出一個(gè)作文來(lái)。我們做的有點(diǎn)像看圖做詩(shī),整條鏈路下來(lái),中間的坑點(diǎn)其實(shí)是挺多的。

提問(wèn):可以重點(diǎn)介紹一下微軟在閱讀理解方面的優(yōu)勢(shì)嗎?

韋福如: SQuAD機(jī)器閱讀理解數(shù)據(jù)集,最近兩年特別火。在工業(yè)界和研究領(lǐng)域都得到了廣泛的關(guān)注。

2018年1月,微軟亞洲研究院提交的模型在EM值上以82.650的最高分率先超越人類(lèi)分?jǐn)?shù)82.304。9月份,我們的模型在EM值和F1值兩個(gè)維度上,以85.954和91.677的分?jǐn)?shù)首次全面超越人類(lèi)在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月,基于BERT開(kāi)發(fā)的最新系統(tǒng)又在SQuAD2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上持續(xù)領(lǐng)先。

提問(wèn):人工智能的“表達(dá)方式”,畢竟不同于人類(lèi)。人類(lèi)具有感情、思維,在說(shuō)話的過(guò)程中兼具情感的表達(dá),同時(shí)也是一個(gè)自然人性格、個(gè)性的重要體現(xiàn)方式。情感的表達(dá)體現(xiàn)在算法上,是怎樣一個(gè)過(guò)程?微軟TTS在機(jī)器情感輸出方面有何看法?

劉越穎:機(jī)器的情感主要由兩方面決定:數(shù)據(jù)和算法。微軟TTS(Text to Speech)在數(shù)據(jù)采集時(shí),與以往不同,更注重情感和意思的表達(dá)。同時(shí),基于深度神經(jīng)網(wǎng)絡(luò)TTS的算法具有更強(qiáng)的學(xué)習(xí)能力,可以更好的還原情感,具有更高的自然度。最后,我們加入了多情感和多風(fēng)格的聲學(xué)建模,并在合成中進(jìn)行精確控制。

提問(wèn):中文表達(dá)與英文等存在語(yǔ)種差異。對(duì)于人類(lèi)而言,換氣、停頓、同音字、斷句的判斷,是很容易的過(guò)程,對(duì)于NLP就比較難。請(qǐng)問(wèn),微軟在“仿人類(lèi)”語(yǔ)言的細(xì)節(jié)處理方面有什么經(jīng)驗(yàn)以及進(jìn)展?

劉越穎:微軟在語(yǔ)音方面已經(jīng)做了很多年。包括從最開(kāi)始的參數(shù)合成、單元拼接,到這次的深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成,都是一步步積累下來(lái)的。此次的深度神經(jīng)網(wǎng)絡(luò),跟原來(lái)不一樣。傳統(tǒng)的做法可以理解為每個(gè)音都拆成不同的單元,通過(guò)比較大量的音節(jié)單元的積累,就可以把不同的音節(jié)單元拼接起來(lái),拼成一句話,但那種合成是比較機(jī)械,拼接過(guò)程中不圓順的地方就會(huì)有機(jī)器感,或者是不太自然的地方。

但是深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成,是一個(gè)端到端的語(yǔ)音合成系統(tǒng),包含端到端的聲學(xué)和韻律建模,以及聲音合成模型??梢钥朔鹘y(tǒng)語(yǔ)音合成系統(tǒng)的局限性,優(yōu)化口語(yǔ)和唱歌中的重音,語(yǔ)調(diào)和節(jié)奏,大幅提升了語(yǔ)音合成的表現(xiàn)力,具有更自然的韻律和更豐富的情感。

中文表達(dá)主要涉及停連、重音、語(yǔ)氣、節(jié)奏,以及對(duì)內(nèi)容的理解。微軟深度神經(jīng)網(wǎng)絡(luò)TTS可以逼真地還原人類(lèi)的換氣聲音,使得語(yǔ)音合成更具有人類(lèi)的特征。對(duì)于斷句、停頓、多音字,微軟針對(duì)不同語(yǔ)言要素,進(jìn)行有針對(duì)性的建模,然后利用端到端的聲學(xué)建模,從真實(shí)語(yǔ)音中學(xué)到最適當(dāng)?shù)谋磉_(dá)方式。 

提問(wèn):除了語(yǔ)音技術(shù),還用到其它哪方面的能力?

韋福如:我們會(huì)用很多不同的圖像識(shí)別技術(shù),有數(shù)十萬(wàn)個(gè)標(biāo)簽和一百多個(gè)類(lèi)。有幾張人臉時(shí),能知道這個(gè)人是開(kāi)心的,還是處于怎樣的狀態(tài)。以及圖像中人物的性別,我們需要拿這些信息去創(chuàng)作歌詞。拿到圖像識(shí)別信息之后,首先要把這些信息,大概歸類(lèi)到一些歌詞的關(guān)鍵詞上。第二步是再把歌詞一句一句生成出來(lái),這個(gè)時(shí)候就用到序列對(duì)序列的生成模型。

提問(wèn):此次合作中,存在的商業(yè)潛力是什么?

劉越穎:現(xiàn)在是多元化、個(gè)性化的時(shí)代,每個(gè)產(chǎn)品或者是公司都希望有一個(gè)自己的形象。這個(gè)形象不僅僅是可以基于圖像層面的,也可以是基于聲音的。未來(lái)聲音定制會(huì)是一個(gè)趨勢(shì)。每個(gè)企業(yè)、設(shè)備、個(gè)人都會(huì)有一個(gè)獨(dú)特的人工智能定制聲音,讓語(yǔ)音融入生活的更多角落。此外,深度神經(jīng)網(wǎng)絡(luò)可以降低訓(xùn)練所需的錄音數(shù)據(jù)數(shù)量,這樣就會(huì)讓聲音定制更加成為可能,這是一個(gè)很好的合作點(diǎn)。

提問(wèn):此次合作,微軟在云計(jì)算方面有哪些部署?

李迎彤:從云計(jì)算的角度來(lái)講,就像日常工作生活中用到的電,大家都用電,但是并不會(huì)去特別留意它的存在。我們發(fā)展云計(jì)算也是一樣,要為大家提供最好的性能,最好的體驗(yàn)。目前,微軟在中國(guó)有大量云計(jì)算的基礎(chǔ)設(shè)施投入,這次我們就運(yùn)用了云平臺(tái)數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)服務(wù)。微軟目前在中國(guó)建有四個(gè)數(shù)據(jù)中心分別位于北京、上海。通過(guò)云端網(wǎng)絡(luò)技術(shù),對(duì)不同地域的請(qǐng)求進(jìn)行快速響應(yīng)。

另外,我們覆蓋全中國(guó)的內(nèi)容分發(fā)網(wǎng)絡(luò),可以保證用戶(hù)在體驗(yàn)的過(guò)程中,不會(huì)受到網(wǎng)絡(luò)帶寬的影響?!赌愕纳?,AI為你唱作》在央視平臺(tái)的推出,是面向全國(guó)范圍甚至更廣的用戶(hù)。所以我們要保證這些受眾都能夠有一個(gè)好的、快速、高效的體驗(yàn)。這一定是因?yàn)槲覀冊(cè)诨A(chǔ)設(shè)施上做了大量的投入,才能做到這樣的保障。

李冕:我們做了很多CDN的加速,我們的機(jī)房離主要的節(jié)點(diǎn)都很近,總體的速度還是很快的。從上傳的速度,包括并發(fā)的響應(yīng)上,在后臺(tái)看CPU跳躍的數(shù)字,我們覺(jué)得還是非常安心的。

央視AI唱作大熱背后是怎樣的技術(shù)?

(雷鋒網(wǎng)注:微軟亞洲互聯(lián)網(wǎng)工程院語(yǔ)音組產(chǎn)品經(jīng)理劉越穎)

走過(guò)青銅、白銀,迎來(lái)“黃金時(shí)代”

比爾·蓋茨曾說(shuō)過(guò),“語(yǔ)言理解是人工智能皇冠上的明珠”。NLP的歷史幾乎與計(jì)算機(jī)和人工智能AI的歷史一樣長(zhǎng)。換句話說(shuō),計(jì)算機(jī)誕生那一刻,人工智能AI也應(yīng)運(yùn)而生。人工智能AI研究最早的領(lǐng)域就是機(jī)器翻譯以及自然語(yǔ)言理解。

微軟亞洲研究院自1998年創(chuàng)建以來(lái),就給予NLP足夠的重視。微軟亞洲研究院官方數(shù)據(jù)顯示,截止2018年11月,共計(jì)發(fā)表100余篇ACL大會(huì)文章,出版《機(jī)器翻譯》和《智能問(wèn)答》兩部著作,培養(yǎng)了500名實(shí)習(xí)生、20名博士和20名博士后。

微軟開(kāi)發(fā)的NLP技術(shù),包括輸入法、分詞、句法/語(yǔ)義分析、文摘、情感分析、問(wèn)答、跨語(yǔ)言檢索、機(jī)器翻譯、知識(shí)圖譜、聊天機(jī)器人、用戶(hù)畫(huà)像和推薦等,已經(jīng)廣泛應(yīng)用于Windows、Office、Bing、微軟認(rèn)知服務(wù)、小冰、小娜等微軟產(chǎn)品中。與創(chuàng)新技術(shù)組合作研發(fā)的微軟對(duì)聯(lián)和必應(yīng)詞典,也已經(jīng)為成千上萬(wàn)的用戶(hù)提供服務(wù)。

21年的時(shí)間里,無(wú)論是微軟亞洲研究院,還是AI行業(yè)。走過(guò)荒蕪、貧瘠的土地,逐漸迎來(lái)辛苦耕種后的種種“收獲”。那么,對(duì)于現(xiàn)在抑或?qū)?lái),微軟TTS正在做著哪些努力?

提問(wèn):微軟近期在TTS領(lǐng)域有什么新論文或者新突破,可以介紹一下,突破點(diǎn)以及對(duì)行業(yè)的影響?

團(tuán)隊(duì)總結(jié):2018年12月,微軟語(yǔ)音在微軟Azure云上發(fā)布了創(chuàng)新性技術(shù)突破——端到端的深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音模型,將語(yǔ)音合成帶入一個(gè)高保真的新階段(參考英文版blog)。深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù)讓語(yǔ)音合成的的質(zhì)量以及語(yǔ)音模型的制作又上了一個(gè)新的臺(tái)階。我們可以感受到語(yǔ)音更自然;訓(xùn)練模型需要的數(shù)據(jù)量更少;支持語(yǔ)音模型也快速擴(kuò)展到多種說(shuō)話的風(fēng)格。

微軟語(yǔ)音合成技術(shù)已經(jīng)在世界頂級(jí)期刊和會(huì)議發(fā)表了多篇論文。

LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019. 

Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.

A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.

提問(wèn):AI語(yǔ)音和自然語(yǔ)言處理是否存在技術(shù)、產(chǎn)品周期長(zhǎng)、落地比較難的情況,從實(shí)際的落地情況來(lái)看,微軟在這方面有什么進(jìn)展?未來(lái)有哪些努力的方向? 

韋福如:我自己不覺(jué)得NLP技術(shù)落地有多么難,實(shí)際上大家每天都在用,比如說(shuō)搜索、輸入法和翻譯,都會(huì)用到自然語(yǔ)音處理的技術(shù)。當(dāng)然,單純靠自然語(yǔ)言處理的技術(shù)驅(qū)動(dòng)的面向大規(guī)模用戶(hù)的應(yīng)用和服務(wù),目前還不是特別成熟,這個(gè)主要還是有需求和場(chǎng)景,要能解決用戶(hù)的實(shí)際問(wèn)題。

反過(guò)來(lái)看,現(xiàn)在機(jī)會(huì)在NLP,不管是從研究上還是外部的市場(chǎng)機(jī)會(huì)。包括很多VC也在關(guān)注。從研究上來(lái)講,2018年大家說(shuō)是NLP之年,就是自然語(yǔ)言處理之年。已經(jīng)有很好的一些進(jìn)展,比如谷歌的BERT這樣的預(yù)訓(xùn)練模型啟發(fā)了新的研究課題,讓通用語(yǔ)言理解成為可能且值得深入探索和重點(diǎn)投入的研究方向。目前,在自然語(yǔ)言理解的任務(wù)上,預(yù)訓(xùn)練模型很好地緩解了標(biāo)注數(shù)據(jù)少和跨領(lǐng)域的問(wèn)題,而這正是實(shí)際應(yīng)用中遇到的實(shí)際問(wèn)題。

落地的機(jī)會(huì)也很多,在通用的理解之后,能夠比較快速地去適配到一些特定的領(lǐng)域。然后在標(biāo)注數(shù)量比較少的情況下,也可以做到不錯(cuò)的結(jié)果,這都是在實(shí)際中遇到的問(wèn)題。我認(rèn)為接下來(lái)NLP不管是研究上,落地上,還是從市場(chǎng)上都應(yīng)該是有非常多機(jī)會(huì)的。

劉越穎:傳統(tǒng)的AI語(yǔ)音合成技術(shù)存在產(chǎn)品周期長(zhǎng)的問(wèn)題。因?yàn)槁曇舨杉臄?shù)量大,時(shí)間久,成本高。經(jīng)過(guò)微軟語(yǔ)音團(tuán)隊(duì)多年來(lái)的研究和技術(shù)更新,目前已經(jīng)率先實(shí)現(xiàn)了平臺(tái)化、產(chǎn)品化的語(yǔ)音合成服務(wù)。首先,深度神經(jīng)網(wǎng)絡(luò)模型可以大大降低聲音采集的數(shù)量和成本,并且在自然度和保真度上很好的還原人聲。同時(shí),微軟提供了平臺(tái)化的定制語(yǔ)音服務(wù),用戶(hù)可以自定義語(yǔ)音合成數(shù)據(jù)和模型,讓開(kāi)發(fā)周期更短,適合更多的個(gè)性化應(yīng)用場(chǎng)景。所以,未來(lái)人工智能語(yǔ)音會(huì)有更多的落地場(chǎng)景,也為用戶(hù)帶來(lái)更豐富的體驗(yàn)。

目前,微軟語(yǔ)音產(chǎn)品已經(jīng)被應(yīng)用于微軟的各類(lèi)人工智能產(chǎn)品和平臺(tái)上,包括了微軟小冰,微軟小娜(Cortana),Windows,Skype,認(rèn)知服務(wù)(Cognitive Service),微軟翻譯等。

此外,微軟語(yǔ)音產(chǎn)品也積極與第三方企業(yè)在更多場(chǎng)景上合作,包括智能助理、智能客服、智能汽車(chē)、智能朗讀等領(lǐng)域。除了這次CCTV的項(xiàng)目外,微軟語(yǔ)音和小米手機(jī)合作,在最新的小米旗艦機(jī)Mi9的手機(jī)內(nèi),定制了王源的明星聲音。通過(guò)語(yǔ)音的橋梁,拉近了粉絲與愛(ài)豆的距離。未來(lái)聲音定制會(huì)是一個(gè)趨勢(shì)。每個(gè)企業(yè),設(shè)備,個(gè)人都會(huì)有一個(gè)獨(dú)特的人工智能定制聲音,讓語(yǔ)音融入生活的更多角落。 

提問(wèn):未來(lái)AI方向有哪些機(jī)會(huì)?

李冕:我覺(jué)得AI的方向有三個(gè)機(jī)會(huì)。一個(gè)是,注入式AI,就是把AI技術(shù)融入到現(xiàn)有的產(chǎn)品和服務(wù)里。

第二個(gè),有很大機(jī)會(huì)的是知識(shí)挖掘,例如搜索引擎可以看作是基于全網(wǎng)數(shù)據(jù)的通用知識(shí)庫(kù)的挖掘,已經(jīng)相對(duì)成熟。但在專(zhuān)業(yè)知識(shí)庫(kù),比如現(xiàn)在大多數(shù)企業(yè)內(nèi)部,有很多數(shù)據(jù)孤島沒(méi)有打通。所以我們認(rèn)為自然語(yǔ)言處理現(xiàn)在有能夠落地的點(diǎn)。

第三個(gè),是提供機(jī)器學(xué)習(xí)的工具和平臺(tái)之上的高價(jià)值產(chǎn)品和服務(wù)。比如,幾個(gè)人攢個(gè)小團(tuán)隊(duì),也能做出人臉識(shí)別的產(chǎn)品。但并沒(méi)有多少公司能提供AI落地到生產(chǎn)場(chǎng)景之后對(duì)業(yè)務(wù)的進(jìn)一步響應(yīng)。例如,高鐵的閘機(jī)需要7×24小時(shí)要響應(yīng)數(shù)據(jù),這部分也可以叫做AI數(shù)據(jù)推理,應(yīng)該是AI技術(shù)供應(yīng)商能提供的增值服務(wù),這樣才能幫助各個(gè)傳統(tǒng)行業(yè)的企業(yè)客戶(hù)能夠真正將AI落地,并發(fā)揮更大的價(jià)值。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

簡(jiǎn)單是終極的復(fù)雜。WeChat:chenxi252516
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)