0
春節(jié)期間,央視新聞新媒體推出了一款交互產(chǎn)品《你的生活,AI為你唱作》,該款產(chǎn)品是央視新聞聯(lián)合微軟全新打造的移動互聯(lián)網(wǎng)交互產(chǎn)品。《你的生活,AI為你唱作》融媒體交互產(chǎn)品利用了微軟智能云,包括計算機視覺 (Computer Vision)、人臉識別(Face Recognition)、自然語言處理(NLP)、定制語音(Custom Voice)等業(yè)內(nèi)領(lǐng)先的AI技術(shù)。
首先,在用戶上傳圖片之后,計算機視覺和人臉識別等技術(shù)將對照片內(nèi)容如環(huán)境、人物、顏色、表情、主題等進行分析;然后基于對照片的綜合理解,智能歌詞創(chuàng)作系統(tǒng)會自動譜寫符合該照片內(nèi)容的不同的歌詞;最后,由語音合成技術(shù)模擬的央視主持人康輝或微軟智能女聲曉曉會根據(jù)歌詞內(nèi)容結(jié)合配樂伴奏進行生動的演唱。用戶就這樣,得到了自己專屬定制的MP3歌曲。
根據(jù)官方數(shù)據(jù)統(tǒng)計結(jié)果,《你的生活,AI為你唱作》在央視新聞新媒體各平臺上線僅2小時,用戶參與量就超過了300萬人次,截至2019年2月8日,在各平臺閱讀量3800萬,利用AI聲音創(chuàng)作視頻閱讀量3500萬,微博相關(guān)話題閱讀量2700萬,AI相關(guān)產(chǎn)品在央視新聞各賬號總閱讀量已超過1億。以上數(shù)據(jù)直觀的顯示出,該融媒體產(chǎn)品的受歡迎程度。
AI應(yīng)用產(chǎn)品大規(guī)模爆發(fā),正值新舊媒體交替,融合發(fā)展之際。借此節(jié)點,近日,雷鋒網(wǎng)與其它兩家媒體,一同對參與這個項目的微軟多個團隊進行了采訪。
受訪人:
李冕 微軟(中國)資深產(chǎn)品市場經(jīng)理
韋福如 微軟亞洲研究院自然語言計算組資深研究員
李迎彤 微軟亞太研發(fā)集團云計算與人工智能事業(yè)部微軟新視界創(chuàng)新總監(jiān)
劉越穎 微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理
在《你的生活,AI為你唱作》融媒體交互產(chǎn)品中,無論是央視主持人康輝,還是微軟智能女聲曉曉,均采用了微軟深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)。微軟的深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù),是基于端到端的神經(jīng)網(wǎng)絡(luò)聲學模型和聲音合成系統(tǒng)開發(fā)的。通過優(yōu)化發(fā)音和韻律,該技術(shù)可以比傳統(tǒng)的語音合成技術(shù)生成更逼真、更自然的人工智能聲音。其中,康輝的聲音更是用到了基于深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型的定制化語音技術(shù)。微軟的定制服務(wù)平臺僅需要使用說話人的少量語音數(shù)據(jù),就可以制作出高質(zhì)量的不同風格的智能語音,而在這個項目中,康輝的說唱風格就是基于不到半小時的數(shù)據(jù)訓(xùn)練的。
而微軟智能女聲曉曉則是微軟面向全球開發(fā)者和合作伙伴發(fā)布的一個通用聲音。該聲音可以通過微軟認知服務(wù)平臺(Azure Cognitive Services)提供的API接口進行實時調(diào)用。用戶們可以直接將曉曉的聲音用于智能助理、智能客服、智能汽車、智能朗讀等場景中。據(jù)劉越穎介紹,一個有趣的現(xiàn)象是,在《你的生活,AI為你創(chuàng)作》產(chǎn)品中,曉曉聲音的使用次數(shù)超過了康輝老師的次數(shù)。這也體現(xiàn)出大家對微軟智能女聲曉曉的喜愛。
微軟語音組提到,在《你的生活,AI為你唱作》產(chǎn)品中,主要的語音技術(shù)特點為:
產(chǎn)品化的基于深度神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)
定制語音合成所需訓(xùn)練數(shù)據(jù)量更少(康輝的數(shù)據(jù)不到一個小時)。
深度神經(jīng)網(wǎng)絡(luò)的語音合成模型讓聲音更逼真和自然
語音合成可以擴展到多種說話的風格(比如這次的說唱風格)
平臺化的定制語音讓開發(fā)周期更短
同時,微軟語音團隊也提到了其它方面的特點:
靈活的部署方案:支持公有云部署;私有化部署;離線部署
多語言國際化支持:微軟語音合成支持全球49個語言,近80個聲音。深度神經(jīng)網(wǎng)絡(luò)支持中文和英文。
工業(yè)云計算平臺:微軟語音合成支持全球十幾個數(shù)據(jù)中心;深度神經(jīng)網(wǎng)絡(luò)可以達到產(chǎn)品級的實時率;支持高并發(fā)。
全系列語音支持:微軟語音可以提供整套的語音識別,翻譯,語音合成等解決方案,可以支持智能客服,翻譯等場景。利用微軟語音解決方已經(jīng)落地的場景如小米9手機王源聲音的定制,ROOBO智能機器人、智能會議系統(tǒng),微軟翻譯,微軟聽聽文檔等。
正如李迎彤所說,應(yīng)用要瞬間觸達到很多人的手機上。高并發(fā)且巨量的網(wǎng)絡(luò)和計算需求,背后需要強大的云端基礎(chǔ)設(shè)施做支持。
其實,微軟與央視新聞的合作,源于CCTV團隊春節(jié)前在微軟新視界技術(shù)展示中心的一次參觀。用李冕的話來說,此次合作偶然中帶著必然,一方面,AI技術(shù)不斷出現(xiàn)重大突破。例如去年9月份,微軟率先發(fā)布了企業(yè)級定制語音合成平臺,企業(yè)可以根據(jù)自己想要的音色來微軟的平臺上定制聲音。去年12月份,微軟在語音方面進一步實現(xiàn)重大的技術(shù)突破,即深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù),一下子讓原來的語音合成領(lǐng)域,很多不能做到的都可以實現(xiàn)了。具體而言,自然度方面可以更加像人類,語氣、情感方面也得到很大的提升。
另一方面,在行業(yè)“轉(zhuǎn)型”的大環(huán)境下,傳統(tǒng)媒體正向新媒體融合發(fā)展。傳統(tǒng)企業(yè)也需要與新興技術(shù)、新興產(chǎn)業(yè)結(jié)合,順應(yīng)時代的潮流,承接未來的要求。其實,無論是小米9王源定制版聲音、央視主持人康輝定制版聲音,還是去年微軟小冰入駐小米智能音箱、華為手機,均體現(xiàn)了微軟的全方位AI能力。未來無論是視覺、聽覺,還是語音,在制造業(yè)、零售、媒體、教育、醫(yī)療、金融等諸多領(lǐng)域會都有相當廣泛的應(yīng)用場景。
特別是,此次與央視新聞合作的融媒體產(chǎn)品,是來自微軟基礎(chǔ)研究的自然語言部門,以及語音產(chǎn)品部門、智能云產(chǎn)品部門和市場部門的能人們跨部門組成項目組,在不到一個月的時間內(nèi)與央視深度合作,實現(xiàn)了將用戶輸入圖片以Rap的方式唱出來的即時體驗,融合了多項微軟的AI和云服務(wù)。
(雷鋒網(wǎng)注:微軟亞洲研究院自然語言計算組資深研究員韋福如)
李冕:最初當央視提出來合作需求的時候,我們考慮過幾個方向。首先一定是用戶體驗要好。其次,盡管時間緊,但是當時我們想,微軟在AI的各個方面都有相當多的技術(shù)積累,可以說是全棧式的,那么我們把步子就邁得更大一些。其實這個項目里用到了很多的不同AI技術(shù),如圖像識別、自然語言處理、語音識別、語音合成等,以及微軟智能云的能力。
所以,最后我們決定在春節(jié)這個特殊的時間節(jié)點,和CCTV一起推出來給廣大的用戶、網(wǎng)民們一個比較好玩和溫暖的產(chǎn)品體驗。同時,對于微軟內(nèi)部而言也是檢閱AI和云各部門快速協(xié)同和落地能力的機會,所以當時我們就去做了這個項目。
韋福如:從自然語言方面來講,用戶對歌詞的要求是什么,有一些不同的地方。因為歌詞講究更接近生活,朗朗上口。輸入部分,要從圖片里獲得盡可能多的信息。如最基本的要知道圖片中是什么環(huán)境,有什么物體,有沒有人,有幾個人,大概年齡等等。還有一些更細致的內(nèi)容,比如,人的性別,表情如何,顏色背景等等……我們需要把這些圖像處理的結(jié)果映射到歌詞生成用到的關(guān)鍵詞,然后再用基于深度學習的歌詞創(chuàng)作模型一句一句生成整首歌詞。但事實上,圖片識別的一般結(jié)果從數(shù)量和類別上都很難滿足歌曲作詞所需要的想象力要求,這就需要我們把這些信息再處理到更細致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。一般歌詞有十來句,甚至一二十句,所以需要做更多的處理。
同時,還需要基于很多數(shù)據(jù)。數(shù)據(jù)方面大家很容易想到的是歌詞,我們抓取了很多歌詞。用戶從生成的歌詞中應(yīng)該感受到了中國傳統(tǒng)文化的氣息,這其中我們使用了宋詞去訓(xùn)練模型。另外一個難點,大家熟悉的歌詞或者宋詞,整體上可能感物思人、傷春悲秋的比較多。但是春節(jié)期間,我們希望大家都開開心心。所以在這方面我們也在算法上做了調(diào)整。比如我們會盡可能讓算法生成積極一些的句子,另外包括有一些多音字,也會做相應(yīng)處理。所以從技術(shù)上來講,一個是長期的積累,包括技術(shù)和文化;第二個是針對這樣特殊的應(yīng)用,做一些細節(jié)上的適應(yīng)調(diào)整。
當然,人類的創(chuàng)造能力是很強的,機器的優(yōu)勢則更多表現(xiàn)在記憶。比如韻律,一般人不太容易掌握,但是對于機器和算法來說,則很容易做到。基礎(chǔ)研究上還有很多很長的路要走,AI在創(chuàng)造內(nèi)容方面的能力還是有限的。
韋福如:比較難的是,通過圖像輸出給出歌詞還是太抽象了。比如,它只知道里面有人臉,只知道里面有人,或者只知道里面有幾個人。這種情況下,去寫歌詞非常難,所以我們需要把這些信息處理到更細致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。歌詞有十來句,甚至一二十句,實際上要做更多的處理。
李冕:我們的場景有點像是小學語文考試里面的看圖作文,給你一張圖。當然我們這個是彩色圖,那個是一張圖或者是兩張圖,然后讓你編出一個作文來。我們做的有點像看圖做詩,整條鏈路下來,中間的坑點其實是挺多的。
韋福如: SQuAD機器閱讀理解數(shù)據(jù)集,最近兩年特別火。在工業(yè)界和研究領(lǐng)域都得到了廣泛的關(guān)注。
2018年1月,微軟亞洲研究院提交的模型在EM值上以82.650的最高分率先超越人類分數(shù)82.304。9月份,我們的模型在EM值和F1值兩個維度上,以85.954和91.677的分數(shù)首次全面超越人類在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月,基于BERT開發(fā)的最新系統(tǒng)又在SQuAD2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上持續(xù)領(lǐng)先。
劉越穎:機器的情感主要由兩方面決定:數(shù)據(jù)和算法。微軟TTS(Text to Speech)在數(shù)據(jù)采集時,與以往不同,更注重情感和意思的表達。同時,基于深度神經(jīng)網(wǎng)絡(luò)TTS的算法具有更強的學習能力,可以更好的還原情感,具有更高的自然度。最后,我們加入了多情感和多風格的聲學建模,并在合成中進行精確控制。
劉越穎:微軟在語音方面已經(jīng)做了很多年。包括從最開始的參數(shù)合成、單元拼接,到這次的深度神經(jīng)網(wǎng)絡(luò)的語音合成,都是一步步積累下來的。此次的深度神經(jīng)網(wǎng)絡(luò),跟原來不一樣。傳統(tǒng)的做法可以理解為每個音都拆成不同的單元,通過比較大量的音節(jié)單元的積累,就可以把不同的音節(jié)單元拼接起來,拼成一句話,但那種合成是比較機械,拼接過程中不圓順的地方就會有機器感,或者是不太自然的地方。
但是深度神經(jīng)網(wǎng)絡(luò)語音合成,是一個端到端的語音合成系統(tǒng),包含端到端的聲學和韻律建模,以及聲音合成模型??梢钥朔鹘y(tǒng)語音合成系統(tǒng)的局限性,優(yōu)化口語和唱歌中的重音,語調(diào)和節(jié)奏,大幅提升了語音合成的表現(xiàn)力,具有更自然的韻律和更豐富的情感。
中文表達主要涉及停連、重音、語氣、節(jié)奏,以及對內(nèi)容的理解。微軟深度神經(jīng)網(wǎng)絡(luò)TTS可以逼真地還原人類的換氣聲音,使得語音合成更具有人類的特征。對于斷句、停頓、多音字,微軟針對不同語言要素,進行有針對性的建模,然后利用端到端的聲學建模,從真實語音中學到最適當?shù)谋磉_方式。
韋福如:我們會用很多不同的圖像識別技術(shù),有數(shù)十萬個標簽和一百多個類。有幾張人臉時,能知道這個人是開心的,還是處于怎樣的狀態(tài)。以及圖像中人物的性別,我們需要拿這些信息去創(chuàng)作歌詞。拿到圖像識別信息之后,首先要把這些信息,大概歸類到一些歌詞的關(guān)鍵詞上。第二步是再把歌詞一句一句生成出來,這個時候就用到序列對序列的生成模型。
劉越穎:現(xiàn)在是多元化、個性化的時代,每個產(chǎn)品或者是公司都希望有一個自己的形象。這個形象不僅僅是可以基于圖像層面的,也可以是基于聲音的。未來聲音定制會是一個趨勢。每個企業(yè)、設(shè)備、個人都會有一個獨特的人工智能定制聲音,讓語音融入生活的更多角落。此外,深度神經(jīng)網(wǎng)絡(luò)可以降低訓(xùn)練所需的錄音數(shù)據(jù)數(shù)量,這樣就會讓聲音定制更加成為可能,這是一個很好的合作點。
李迎彤:從云計算的角度來講,就像日常工作生活中用到的電,大家都用電,但是并不會去特別留意它的存在。我們發(fā)展云計算也是一樣,要為大家提供最好的性能,最好的體驗。目前,微軟在中國有大量云計算的基礎(chǔ)設(shè)施投入,這次我們就運用了云平臺數(shù)據(jù)庫和網(wǎng)絡(luò)服務(wù)。微軟目前在中國建有四個數(shù)據(jù)中心分別位于北京、上海。通過云端網(wǎng)絡(luò)技術(shù),對不同地域的請求進行快速響應(yīng)。
另外,我們覆蓋全中國的內(nèi)容分發(fā)網(wǎng)絡(luò),可以保證用戶在體驗的過程中,不會受到網(wǎng)絡(luò)帶寬的影響。《你的生活,AI為你唱作》在央視平臺的推出,是面向全國范圍甚至更廣的用戶。所以我們要保證這些受眾都能夠有一個好的、快速、高效的體驗。這一定是因為我們在基礎(chǔ)設(shè)施上做了大量的投入,才能做到這樣的保障。
李冕:我們做了很多CDN的加速,我們的機房離主要的節(jié)點都很近,總體的速度還是很快的。從上傳的速度,包括并發(fā)的響應(yīng)上,在后臺看CPU跳躍的數(shù)字,我們覺得還是非常安心的。
(雷鋒網(wǎng)注:微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理劉越穎)
比爾·蓋茨曾說過,“語言理解是人工智能皇冠上的明珠”。NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。換句話說,計算機誕生那一刻,人工智能AI也應(yīng)運而生。人工智能AI研究最早的領(lǐng)域就是機器翻譯以及自然語言理解。
微軟亞洲研究院自1998年創(chuàng)建以來,就給予NLP足夠的重視。微軟亞洲研究院官方數(shù)據(jù)顯示,截止2018年11月,共計發(fā)表100余篇ACL大會文章,出版《機器翻譯》和《智能問答》兩部著作,培養(yǎng)了500名實習生、20名博士和20名博士后。
微軟開發(fā)的NLP技術(shù),包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等,已經(jīng)廣泛應(yīng)用于Windows、Office、Bing、微軟認知服務(wù)、小冰、小娜等微軟產(chǎn)品中。與創(chuàng)新技術(shù)組合作研發(fā)的微軟對聯(lián)和必應(yīng)詞典,也已經(jīng)為成千上萬的用戶提供服務(wù)。
21年的時間里,無論是微軟亞洲研究院,還是AI行業(yè)。走過荒蕪、貧瘠的土地,逐漸迎來辛苦耕種后的種種“收獲”。那么,對于現(xiàn)在抑或?qū)?,微軟TTS正在做著哪些努力?
團隊總結(jié):2018年12月,微軟語音在微軟Azure云上發(fā)布了創(chuàng)新性技術(shù)突破——端到端的深度神經(jīng)網(wǎng)絡(luò)語音模型,將語音合成帶入一個高保真的新階段(參考英文版blog)。深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)讓語音合成的的質(zhì)量以及語音模型的制作又上了一個新的臺階。我們可以感受到語音更自然;訓(xùn)練模型需要的數(shù)據(jù)量更少;支持語音模型也快速擴展到多種說話的風格。
微軟語音合成技術(shù)已經(jīng)在世界頂級期刊和會議發(fā)表了多篇論文。
LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.
Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.
A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.
韋福如:我自己不覺得NLP技術(shù)落地有多么難,實際上大家每天都在用,比如說搜索、輸入法和翻譯,都會用到自然語音處理的技術(shù)。當然,單純靠自然語言處理的技術(shù)驅(qū)動的面向大規(guī)模用戶的應(yīng)用和服務(wù),目前還不是特別成熟,這個主要還是有需求和場景,要能解決用戶的實際問題。
反過來看,現(xiàn)在機會在NLP,不管是從研究上還是外部的市場機會。包括很多VC也在關(guān)注。從研究上來講,2018年大家說是NLP之年,就是自然語言處理之年。已經(jīng)有很好的一些進展,比如谷歌的BERT這樣的預(yù)訓(xùn)練模型啟發(fā)了新的研究課題,讓通用語言理解成為可能且值得深入探索和重點投入的研究方向。目前,在自然語言理解的任務(wù)上,預(yù)訓(xùn)練模型很好地緩解了標注數(shù)據(jù)少和跨領(lǐng)域的問題,而這正是實際應(yīng)用中遇到的實際問題。
落地的機會也很多,在通用的理解之后,能夠比較快速地去適配到一些特定的領(lǐng)域。然后在標注數(shù)量比較少的情況下,也可以做到不錯的結(jié)果,這都是在實際中遇到的問題。我認為接下來NLP不管是研究上,落地上,還是從市場上都應(yīng)該是有非常多機會的。
劉越穎:傳統(tǒng)的AI語音合成技術(shù)存在產(chǎn)品周期長的問題。因為聲音采集的數(shù)量大,時間久,成本高。經(jīng)過微軟語音團隊多年來的研究和技術(shù)更新,目前已經(jīng)率先實現(xiàn)了平臺化、產(chǎn)品化的語音合成服務(wù)。首先,深度神經(jīng)網(wǎng)絡(luò)模型可以大大降低聲音采集的數(shù)量和成本,并且在自然度和保真度上很好的還原人聲。同時,微軟提供了平臺化的定制語音服務(wù),用戶可以自定義語音合成數(shù)據(jù)和模型,讓開發(fā)周期更短,適合更多的個性化應(yīng)用場景。所以,未來人工智能語音會有更多的落地場景,也為用戶帶來更豐富的體驗。
目前,微軟語音產(chǎn)品已經(jīng)被應(yīng)用于微軟的各類人工智能產(chǎn)品和平臺上,包括了微軟小冰,微軟小娜(Cortana),Windows,Skype,認知服務(wù)(Cognitive Service),微軟翻譯等。
此外,微軟語音產(chǎn)品也積極與第三方企業(yè)在更多場景上合作,包括智能助理、智能客服、智能汽車、智能朗讀等領(lǐng)域。除了這次CCTV的項目外,微軟語音和小米手機合作,在最新的小米旗艦機Mi9的手機內(nèi),定制了王源的明星聲音。通過語音的橋梁,拉近了粉絲與愛豆的距離。未來聲音定制會是一個趨勢。每個企業(yè),設(shè)備,個人都會有一個獨特的人工智能定制聲音,讓語音融入生活的更多角落。
李冕:我覺得AI的方向有三個機會。一個是,注入式AI,就是把AI技術(shù)融入到現(xiàn)有的產(chǎn)品和服務(wù)里。
第二個,有很大機會的是知識挖掘,例如搜索引擎可以看作是基于全網(wǎng)數(shù)據(jù)的通用知識庫的挖掘,已經(jīng)相對成熟。但在專業(yè)知識庫,比如現(xiàn)在大多數(shù)企業(yè)內(nèi)部,有很多數(shù)據(jù)孤島沒有打通。所以我們認為自然語言處理現(xiàn)在有能夠落地的點。
第三個,是提供機器學習的工具和平臺之上的高價值產(chǎn)品和服務(wù)。比如,幾個人攢個小團隊,也能做出人臉識別的產(chǎn)品。但并沒有多少公司能提供AI落地到生產(chǎn)場景之后對業(yè)務(wù)的進一步響應(yīng)。例如,高鐵的閘機需要7×24小時要響應(yīng)數(shù)據(jù),這部分也可以叫做AI數(shù)據(jù)推理,應(yīng)該是AI技術(shù)供應(yīng)商能提供的增值服務(wù),這樣才能幫助各個傳統(tǒng)行業(yè)的企業(yè)客戶能夠真正將AI落地,并發(fā)揮更大的價值。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。