央視AI唱作大熱背后是怎樣的技術(shù)？

本文作者：趙晨希

2019-03-05 16:37

導語：NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。

春節(jié)期間，央視新聞新媒體推出了一款交互產(chǎn)品《你的生活，AI為你唱作》，該款產(chǎn)品是央視新聞聯(lián)合微軟全新打造的移動互聯(lián)網(wǎng)交互產(chǎn)品?！赌愕纳?，AI為你唱作》融媒體交互產(chǎn)品利用了微軟智能云，包括計算機視覺 (Computer Vision)、人臉識別（Face Recognition）、自然語言處理（NLP）、定制語音（Custom Voice）等業(yè)內(nèi)領(lǐng)先的AI技術(shù)。

首先，在用戶上傳圖片之后，計算機視覺和人臉識別等技術(shù)將對照片內(nèi)容如環(huán)境、人物、顏色、表情、主題等進行分析；然后基于對照片的綜合理解，智能歌詞創(chuàng)作系統(tǒng)會自動譜寫符合該照片內(nèi)容的不同的歌詞；最后，由語音合成技術(shù)模擬的央視主持人康輝或微軟智能女聲曉曉會根據(jù)歌詞內(nèi)容結(jié)合配樂伴奏進行生動的演唱。用戶就這樣，得到了自己專屬定制的MP3歌曲。

根據(jù)官方數(shù)據(jù)統(tǒng)計結(jié)果，《你的生活，AI為你唱作》在央視新聞新媒體各平臺上線僅2小時，用戶參與量就超過了300萬人次，截至2019年2月8日，在各平臺閱讀量3800萬，利用AI聲音創(chuàng)作視頻閱讀量3500萬，微博相關(guān)話題閱讀量2700萬，AI相關(guān)產(chǎn)品在央視新聞各賬號總閱讀量已超過1億。以上數(shù)據(jù)直觀的顯示出，該融媒體產(chǎn)品的受歡迎程度。

AI應用產(chǎn)品大規(guī)模爆發(fā)，正值新舊媒體交替，融合發(fā)展之際。借此節(jié)點，近日，雷鋒網(wǎng)與其它兩家媒體，一同對參與這個項目的微軟多個團隊進行了采訪。

受訪人:

李冕微軟（中國）資深產(chǎn)品市場經(jīng)理
韋福如微軟亞洲研究院自然語言計算組資深研究員
李迎彤微軟亞太研發(fā)集團云計算與人工智能事業(yè)部微軟新視界創(chuàng)新總監(jiān)
劉越穎微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理

AI唱作交互產(chǎn)品，背后的“故事”

在《你的生活，AI為你唱作》融媒體交互產(chǎn)品中，無論是央視主持人康輝，還是微軟智能女聲曉曉，均采用了微軟深度神經(jīng)網(wǎng)絡語音合成技術(shù)。微軟的深度神經(jīng)網(wǎng)絡語音合成服務，是基于端到端的神經(jīng)網(wǎng)絡聲學模型和聲音合成系統(tǒng)開發(fā)的。通過優(yōu)化發(fā)音和韻律，該技術(shù)可以比傳統(tǒng)的語音合成技術(shù)生成更逼真、更自然的人工智能聲音。其中，康輝的聲音更是用到了基于深度神經(jīng)網(wǎng)絡基礎模型的定制化語音技術(shù)。微軟的定制服務平臺僅需要使用說話人的少量語音數(shù)據(jù)，就可以制作出高質(zhì)量的不同風格的智能語音，而在這個項目中，康輝的說唱風格就是基于不到半小時的數(shù)據(jù)訓練的。

而微軟智能女聲曉曉則是微軟面向全球開發(fā)者和合作伙伴發(fā)布的一個通用聲音。該聲音可以通過微軟認知服務平臺（Azure Cognitive Services）提供的API接口進行實時調(diào)用。用戶們可以直接將曉曉的聲音用于智能助理、智能客服、智能汽車、智能朗讀等場景中。據(jù)劉越穎介紹，一個有趣的現(xiàn)象是，在《你的生活，AI為你創(chuàng)作》產(chǎn)品中，曉曉聲音的使用次數(shù)超過了康輝老師的次數(shù)。這也體現(xiàn)出大家對微軟智能女聲曉曉的喜愛。

微軟語音組提到，在《你的生活，AI為你唱作》產(chǎn)品中，主要的語音技術(shù)特點為：

產(chǎn)品化的基于深度神經(jīng)網(wǎng)絡的語音合成技術(shù)
定制語音合成所需訓練數(shù)據(jù)量更少（康輝的數(shù)據(jù)不到一個小時）。
深度神經(jīng)網(wǎng)絡的語音合成模型讓聲音更逼真和自然
語音合成可以擴展到多種說話的風格（比如這次的說唱風格）
平臺化的定制語音讓開發(fā)周期更短

同時，微軟語音團隊也提到了其它方面的特點：

靈活的部署方案：支持公有云部署；私有化部署；離線部署
多語言國際化支持：微軟語音合成支持全球49個語言，近80個聲音。深度神經(jīng)網(wǎng)絡支持中文和英文。
工業(yè)云計算平臺：微軟語音合成支持全球十幾個數(shù)據(jù)中心；深度神經(jīng)網(wǎng)絡可以達到產(chǎn)品級的實時率；支持高并發(fā)。
全系列語音支持：微軟語音可以提供整套的語音識別，翻譯，語音合成等解決方案，可以支持智能客服，翻譯等場景。利用微軟語音解決方已經(jīng)落地的場景如小米9手機王源聲音的定制，ROOBO智能機器人、智能會議系統(tǒng)，微軟翻譯，微軟聽聽文檔等。

正如李迎彤所說，應用要瞬間觸達到很多人的手機上。高并發(fā)且巨量的網(wǎng)絡和計算需求，背后需要強大的云端基礎設施做支持。

其實，微軟與央視新聞的合作，源于CCTV團隊春節(jié)前在微軟新視界技術(shù)展示中心的一次參觀。用李冕的話來說，此次合作偶然中帶著必然，一方面，AI技術(shù)不斷出現(xiàn)重大突破。例如去年9月份，微軟率先發(fā)布了企業(yè)級定制語音合成平臺，企業(yè)可以根據(jù)自己想要的音色來微軟的平臺上定制聲音。去年12月份，微軟在語音方面進一步實現(xiàn)重大的技術(shù)突破，即深度神經(jīng)網(wǎng)絡語音合成技術(shù)，一下子讓原來的語音合成領(lǐng)域，很多不能做到的都可以實現(xiàn)了。具體而言，自然度方面可以更加像人類，語氣、情感方面也得到很大的提升。

另一方面，在行業(yè)“轉(zhuǎn)型”的大環(huán)境下，傳統(tǒng)媒體正向新媒體融合發(fā)展。傳統(tǒng)企業(yè)也需要與新興技術(shù)、新興產(chǎn)業(yè)結(jié)合，順應時代的潮流，承接未來的要求。其實，無論是小米9王源定制版聲音、央視主持人康輝定制版聲音，還是去年微軟小冰入駐小米智能音箱、華為手機，均體現(xiàn)了微軟的全方位AI能力。未來無論是視覺、聽覺，還是語音，在制造業(yè)、零售、媒體、教育、醫(yī)療、金融等諸多領(lǐng)域會都有相當廣泛的應用場景。

特別是，此次與央視新聞合作的融媒體產(chǎn)品，是來自微軟基礎研究的自然語言部門，以及語音產(chǎn)品部門、智能云產(chǎn)品部門和市場部門的能人們跨部門組成項目組，在不到一個月的時間內(nèi)與央視深度合作，實現(xiàn)了將用戶輸入圖片以Rap的方式唱出來的即時體驗，融合了多項微軟的AI和云服務。

央視AI唱作大熱背后是怎樣的技術(shù)？

（雷鋒網(wǎng)注：微軟亞洲研究院自然語言計算組資深研究員韋福如）

從幕后走到臺前，很多“Highlight”

提問：微軟與央視新聞合作，背后有著怎樣的考量？

李冕：最初當央視提出來合作需求的時候，我們考慮過幾個方向。首先一定是用戶體驗要好。其次，盡管時間緊，但是當時我們想，微軟在AI的各個方面都有相當多的技術(shù)積累，可以說是全棧式的，那么我們把步子就邁得更大一些。其實這個項目里用到了很多的不同AI技術(shù)，如圖像識別、自然語言處理、語音識別、語音合成等，以及微軟智能云的能力。

所以，最后我們決定在春節(jié)這個特殊的時間節(jié)點，和CCTV一起推出來給廣大的用戶、網(wǎng)民們一個比較好玩和溫暖的產(chǎn)品體驗。同時，對于微軟內(nèi)部而言也是檢閱AI和云各部門快速協(xié)同和落地能力的機會，所以當時我們就去做了這個項目。

提問：整個合作過程有哪些難點？

韋福如：從自然語言方面來講，用戶對歌詞的要求是什么，有一些不同的地方。因為歌詞講究更接近生活，朗朗上口。輸入部分，要從圖片里獲得盡可能多的信息。如最基本的要知道圖片中是什么環(huán)境，有什么物體，有沒有人，有幾個人，大概年齡等等。還有一些更細致的內(nèi)容，比如，人的性別，表情如何，顏色背景等等……我們需要把這些圖像處理的結(jié)果映射到歌詞生成用到的關(guān)鍵詞，然后再用基于深度學習的歌詞創(chuàng)作模型一句一句生成整首歌詞。但事實上，圖片識別的一般結(jié)果從數(shù)量和類別上都很難滿足歌曲作詞所需要的想象力要求，這就需要我們把這些信息再處理到更細致的關(guān)鍵詞上去，然后從這些關(guān)鍵詞再生成歌詞。一般歌詞有十來句，甚至一二十句，所以需要做更多的處理。

同時，還需要基于很多數(shù)據(jù)。數(shù)據(jù)方面大家很容易想到的是歌詞，我們抓取了很多歌詞。用戶從生成的歌詞中應該感受到了中國傳統(tǒng)文化的氣息，這其中我們使用了宋詞去訓練模型。另外一個難點，大家熟悉的歌詞或者宋詞，整體上可能感物思人、傷春悲秋的比較多。但是春節(jié)期間，我們希望大家都開開心心。所以在這方面我們也在算法上做了調(diào)整。比如我們會盡可能讓算法生成積極一些的句子，另外包括有一些多音字，也會做相應處理。所以從技術(shù)上來講，一個是長期的積累，包括技術(shù)和文化；第二個是針對這樣特殊的應用，做一些細節(jié)上的適應調(diào)整。

當然，人類的創(chuàng)造能力是很強的，機器的優(yōu)勢則更多表現(xiàn)在記憶。比如韻律，一般人不太容易掌握，但是對于機器和算法來說，則很容易做到?；A研究上還有很多很長的路要走，AI在創(chuàng)造內(nèi)容方面的能力還是有限的。

提問：不管TTS（Text to Speech）也好，還是圖象識別也好，遇到的最大困難是什么，怎樣解決的？

韋福如：比較難的是，通過圖像輸出給出歌詞還是太抽象了。比如，它只知道里面有人臉，只知道里面有人，或者只知道里面有幾個人。這種情況下，去寫歌詞非常難，所以我們需要把這些信息處理到更細致的關(guān)鍵詞上去，然后從這些關(guān)鍵詞再生成歌詞。歌詞有十來句，甚至一二十句，實際上要做更多的處理。

李冕：我們的場景有點像是小學語文考試里面的看圖作文，給你一張圖。當然我們這個是彩色圖，那個是一張圖或者是兩張圖，然后讓你編出一個作文來。我們做的有點像看圖做詩，整條鏈路下來，中間的坑點其實是挺多的。

提問：可以重點介紹一下微軟在閱讀理解方面的優(yōu)勢嗎？

韋福如： SQuAD機器閱讀理解數(shù)據(jù)集，最近兩年特別火。在工業(yè)界和研究領(lǐng)域都得到了廣泛的關(guān)注。

2018年1月，微軟亞洲研究院提交的模型在EM值上以82.650的最高分率先超越人類分數(shù)82.304。9月份，我們的模型在EM值和F1值兩個維度上，以85.954和91.677的分數(shù)首次全面超越人類在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月，基于BERT開發(fā)的最新系統(tǒng)又在SQuAD2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上持續(xù)領(lǐng)先。

提問：人工智能的“表達方式”，畢竟不同于人類。人類具有感情、思維，在說話的過程中兼具情感的表達，同時也是一個自然人性格、個性的重要體現(xiàn)方式。情感的表達體現(xiàn)在算法上，是怎樣一個過程？微軟TTS在機器情感輸出方面有何看法？

劉越穎：機器的情感主要由兩方面決定：數(shù)據(jù)和算法。微軟TTS（Text to Speech）在數(shù)據(jù)采集時，與以往不同，更注重情感和意思的表達。同時，基于深度神經(jīng)網(wǎng)絡TTS的算法具有更強的學習能力，可以更好的還原情感，具有更高的自然度。最后，我們加入了多情感和多風格的聲學建模，并在合成中進行精確控制。

提問：中文表達與英文等存在語種差異。對于人類而言，換氣、停頓、同音字、斷句的判斷，是很容易的過程，對于NLP就比較難。請問，微軟在“仿人類”語言的細節(jié)處理方面有什么經(jīng)驗以及進展？

劉越穎：微軟在語音方面已經(jīng)做了很多年。包括從最開始的參數(shù)合成、單元拼接，到這次的深度神經(jīng)網(wǎng)絡的語音合成，都是一步步積累下來的。此次的深度神經(jīng)網(wǎng)絡，跟原來不一樣。傳統(tǒng)的做法可以理解為每個音都拆成不同的單元，通過比較大量的音節(jié)單元的積累，就可以把不同的音節(jié)單元拼接起來，拼成一句話，但那種合成是比較機械，拼接過程中不圓順的地方就會有機器感，或者是不太自然的地方。

但是深度神經(jīng)網(wǎng)絡語音合成，是一個端到端的語音合成系統(tǒng)，包含端到端的聲學和韻律建模，以及聲音合成模型?？梢钥朔鹘y(tǒng)語音合成系統(tǒng)的局限性，優(yōu)化口語和唱歌中的重音，語調(diào)和節(jié)奏，大幅提升了語音合成的表現(xiàn)力，具有更自然的韻律和更豐富的情感。

中文表達主要涉及停連、重音、語氣、節(jié)奏，以及對內(nèi)容的理解。微軟深度神經(jīng)網(wǎng)絡TTS可以逼真地還原人類的換氣聲音，使得語音合成更具有人類的特征。對于斷句、停頓、多音字，微軟針對不同語言要素，進行有針對性的建模，然后利用端到端的聲學建模，從真實語音中學到最適當?shù)谋磉_方式。

提問：除了語音技術(shù)，還用到其它哪方面的能力？

韋福如：我們會用很多不同的圖像識別技術(shù)，有數(shù)十萬個標簽和一百多個類。有幾張人臉時，能知道這個人是開心的，還是處于怎樣的狀態(tài)。以及圖像中人物的性別，我們需要拿這些信息去創(chuàng)作歌詞。拿到圖像識別信息之后，首先要把這些信息，大概歸類到一些歌詞的關(guān)鍵詞上。第二步是再把歌詞一句一句生成出來，這個時候就用到序列對序列的生成模型。

提問：此次合作中，存在的商業(yè)潛力是什么？

劉越穎：現(xiàn)在是多元化、個性化的時代，每個產(chǎn)品或者是公司都希望有一個自己的形象。這個形象不僅僅是可以基于圖像層面的，也可以是基于聲音的。未來聲音定制會是一個趨勢。每個企業(yè)、設備、個人都會有一個獨特的人工智能定制聲音，讓語音融入生活的更多角落。此外，深度神經(jīng)網(wǎng)絡可以降低訓練所需的錄音數(shù)據(jù)數(shù)量，這樣就會讓聲音定制更加成為可能，這是一個很好的合作點。

提問：此次合作，微軟在云計算方面有哪些部署？

李迎彤：從云計算的角度來講，就像日常工作生活中用到的電，大家都用電，但是并不會去特別留意它的存在。我們發(fā)展云計算也是一樣，要為大家提供最好的性能，最好的體驗。目前，微軟在中國有大量云計算的基礎設施投入，這次我們就運用了云平臺數(shù)據(jù)庫和網(wǎng)絡服務。微軟目前在中國建有四個數(shù)據(jù)中心分別位于北京、上海。通過云端網(wǎng)絡技術(shù)，對不同地域的請求進行快速響應。

另外，我們覆蓋全中國的內(nèi)容分發(fā)網(wǎng)絡，可以保證用戶在體驗的過程中，不會受到網(wǎng)絡帶寬的影響?！赌愕纳睿珹I為你唱作》在央視平臺的推出，是面向全國范圍甚至更廣的用戶。所以我們要保證這些受眾都能夠有一個好的、快速、高效的體驗。這一定是因為我們在基礎設施上做了大量的投入，才能做到這樣的保障。

李冕：我們做了很多CDN的加速，我們的機房離主要的節(jié)點都很近，總體的速度還是很快的。從上傳的速度，包括并發(fā)的響應上，在后臺看CPU跳躍的數(shù)字，我們覺得還是非常安心的。

央視AI唱作大熱背后是怎樣的技術(shù)？

（雷鋒網(wǎng)注：微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理劉越穎）

走過青銅、白銀，迎來“黃金時代”

比爾·蓋茨曾說過，“語言理解是人工智能皇冠上的明珠”。NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。換句話說，計算機誕生那一刻，人工智能AI也應運而生。人工智能AI研究最早的領(lǐng)域就是機器翻譯以及自然語言理解。

微軟亞洲研究院自1998年創(chuàng)建以來，就給予NLP足夠的重視。微軟亞洲研究院官方數(shù)據(jù)顯示，截止2018年11月，共計發(fā)表100余篇ACL大會文章，出版《機器翻譯》和《智能問答》兩部著作，培養(yǎng)了500名實習生、20名博士和20名博士后。

微軟開發(fā)的NLP技術(shù)，包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等，已經(jīng)廣泛應用于Windows、Office、Bing、微軟認知服務、小冰、小娜等微軟產(chǎn)品中。與創(chuàng)新技術(shù)組合作研發(fā)的微軟對聯(lián)和必應詞典，也已經(jīng)為成千上萬的用戶提供服務。

21年的時間里，無論是微軟亞洲研究院，還是AI行業(yè)。走過荒蕪、貧瘠的土地，逐漸迎來辛苦耕種后的種種“收獲”。那么，對于現(xiàn)在抑或?qū)?，微軟TTS正在做著哪些努力？

提問：微軟近期在TTS領(lǐng)域有什么新論文或者新突破，可以介紹一下，突破點以及對行業(yè)的影響？

團隊總結(jié)：2018年12月，微軟語音在微軟Azure云上發(fā)布了創(chuàng)新性技術(shù)突破——端到端的深度神經(jīng)網(wǎng)絡語音模型，將語音合成帶入一個高保真的新階段（參考英文版blog）。深度神經(jīng)網(wǎng)絡語音合成技術(shù)讓語音合成的的質(zhì)量以及語音模型的制作又上了一個新的臺階。我們可以感受到語音更自然；訓練模型需要的數(shù)據(jù)量更少；支持語音模型也快速擴展到多種說話的風格。

微軟語音合成技術(shù)已經(jīng)在世界頂級期刊和會議發(fā)表了多篇論文。

LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.

Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.

A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.

提問：AI語音和自然語言處理是否存在技術(shù)、產(chǎn)品周期長、落地比較難的情況，從實際的落地情況來看，微軟在這方面有什么進展？未來有哪些努力的方向？

韋福如：我自己不覺得NLP技術(shù)落地有多么難，實際上大家每天都在用，比如說搜索、輸入法和翻譯，都會用到自然語音處理的技術(shù)。當然，單純靠自然語言處理的技術(shù)驅(qū)動的面向大規(guī)模用戶的應用和服務，目前還不是特別成熟，這個主要還是有需求和場景，要能解決用戶的實際問題。

反過來看，現(xiàn)在機會在NLP，不管是從研究上還是外部的市場機會。包括很多VC也在關(guān)注。從研究上來講，2018年大家說是NLP之年，就是自然語言處理之年。已經(jīng)有很好的一些進展，比如谷歌的BERT這樣的預訓練模型啟發(fā)了新的研究課題，讓通用語言理解成為可能且值得深入探索和重點投入的研究方向。目前，在自然語言理解的任務上，預訓練模型很好地緩解了標注數(shù)據(jù)少和跨領(lǐng)域的問題，而這正是實際應用中遇到的實際問題。

落地的機會也很多，在通用的理解之后，能夠比較快速地去適配到一些特定的領(lǐng)域。然后在標注數(shù)量比較少的情況下，也可以做到不錯的結(jié)果，這都是在實際中遇到的問題。我認為接下來NLP不管是研究上，落地上，還是從市場上都應該是有非常多機會的。

劉越穎：傳統(tǒng)的AI語音合成技術(shù)存在產(chǎn)品周期長的問題。因為聲音采集的數(shù)量大，時間久，成本高。經(jīng)過微軟語音團隊多年來的研究和技術(shù)更新，目前已經(jīng)率先實現(xiàn)了平臺化、產(chǎn)品化的語音合成服務。首先，深度神經(jīng)網(wǎng)絡模型可以大大降低聲音采集的數(shù)量和成本，并且在自然度和保真度上很好的還原人聲。同時，微軟提供了平臺化的定制語音服務，用戶可以自定義語音合成數(shù)據(jù)和模型，讓開發(fā)周期更短，適合更多的個性化應用場景。所以，未來人工智能語音會有更多的落地場景，也為用戶帶來更豐富的體驗。

目前，微軟語音產(chǎn)品已經(jīng)被應用于微軟的各類人工智能產(chǎn)品和平臺上，包括了微軟小冰，微軟小娜（Cortana)，Windows，Skype，認知服務（Cognitive Service），微軟翻譯等。

此外，微軟語音產(chǎn)品也積極與第三方企業(yè)在更多場景上合作，包括智能助理、智能客服、智能汽車、智能朗讀等領(lǐng)域。除了這次CCTV的項目外，微軟語音和小米手機合作，在最新的小米旗艦機Mi9的手機內(nèi)，定制了王源的明星聲音。通過語音的橋梁，拉近了粉絲與愛豆的距離。未來聲音定制會是一個趨勢。每個企業(yè)，設備，個人都會有一個獨特的人工智能定制聲音，讓語音融入生活的更多角落。

提問：未來AI方向有哪些機會？

李冕：我覺得AI的方向有三個機會。一個是，注入式AI，就是把AI技術(shù)融入到現(xiàn)有的產(chǎn)品和服務里。

第二個，有很大機會的是知識挖掘，例如搜索引擎可以看作是基于全網(wǎng)數(shù)據(jù)的通用知識庫的挖掘，已經(jīng)相對成熟。但在專業(yè)知識庫，比如現(xiàn)在大多數(shù)企業(yè)內(nèi)部，有很多數(shù)據(jù)孤島沒有打通。所以我們認為自然語言處理現(xiàn)在有能夠落地的點。

第三個，是提供機器學習的工具和平臺之上的高價值產(chǎn)品和服務。比如，幾個人攢個小團隊，也能做出人臉識別的產(chǎn)品。但并沒有多少公司能提供AI落地到生產(chǎn)場景之后對業(yè)務的進一步響應。例如，高鐵的閘機需要7×24小時要響應數(shù)據(jù)，這部分也可以叫做AI數(shù)據(jù)推理，應該是AI技術(shù)供應商能提供的增值服務，這樣才能幫助各個傳統(tǒng)行業(yè)的企業(yè)客戶能夠真正將AI落地，并發(fā)揮更大的價值。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

趙晨希

編輯

簡單是終極的復雜。WeChat：chenxi252516

發(fā)私信

當月熱門文章

央視AI唱作大熱背后是怎樣的技術(shù)？

AI唱作交互產(chǎn)品，背后的“故事”

從幕后走到臺前，很多“Highlight”

提問：微軟與央視新聞合作，背后有著怎樣的考量？

提問：整個合作過程有哪些難點？

提問：不管TTS（Text to Speech）也好，還是圖象識別也好，遇到的最大困難是什么，怎樣解決的？

提問：可以重點介紹一下微軟在閱讀理解方面的優(yōu)勢嗎？

提問：中文表達與英文等存在語種差異。對于人類而言，換氣、停頓、同音字、斷句的判斷，是很容易的過程，對于NLP就比較難。請問，微軟在“仿人類”語言的細節(jié)處理方面有什么經(jīng)驗以及進展？

提問：除了語音技術(shù)，還用到其它哪方面的能力？

提問：此次合作中，存在的商業(yè)潛力是什么？

提問：此次合作，微軟在云計算方面有哪些部署？

走過青銅、白銀，迎來“黃金時代”

提問：微軟近期在TTS領(lǐng)域有什么新論文或者新突破，可以介紹一下，突破點以及對行業(yè)的影響？

提問：AI語音和自然語言處理是否存在技術(shù)、產(chǎn)品周期長、落地比較難的情況，從實際的落地情況來看，微軟在這方面有什么進展？未來有哪些努力的方向？

提問：未來AI方向有哪些機會？

央視AI唱作大熱背后是怎樣的技術(shù)？

提問：微軟與央視新聞合作，背后有著怎樣的考量？

提問：整個合作過程有哪些難點？

提問：不管TTS（Text to Speech）也好，還是圖象識別也好，遇到的最大困難是什么，怎樣解決的？

提問：可以重點介紹一下微軟在閱讀理解方面的優(yōu)勢嗎？

提問：中文表達與英文等存在語種差異。對于人類而言，換氣、停頓、同音字、斷句的判斷，是很容易的過程，對于NLP就比較難。請問，微軟在“仿人類”語言的細節(jié)處理方面有什么經(jīng)驗以及進展？

提問：除了語音技術(shù)，還用到其它哪方面的能力？

提問：此次合作中，存在的商業(yè)潛力是什么？

走過青銅、白銀，迎來“黃金時代”

提問：微軟近期在TTS領(lǐng)域有什么新論文或者新突破，可以介紹一下，突破點以及對行業(yè)的影響？

提問：AI語音和自然語言處理是否存在技術(shù)、產(chǎn)品周期長、落地比較難的情況，從實際的落地情況來看，微軟在這方面有什么進展？未來有哪些努力的方向？

提問：未來AI方向有哪些機會？