丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給趙晨希
發(fā)送

0

央視AI唱作大熱背后是怎樣的技術(shù)?

本文作者: 趙晨希 2019-03-05 16:37
導(dǎo)語:NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。

春節(jié)期間,央視新聞新媒體推出了一款交互產(chǎn)品《你的生活,AI為你唱作》,該款產(chǎn)品是央視新聞聯(lián)合微軟全新打造的移動互聯(lián)網(wǎng)交互產(chǎn)品。《你的生活,AI為你唱作》融媒體交互產(chǎn)品利用了微軟智能云,包括計算機視覺 (Computer Vision)、人臉識別(Face Recognition)、自然語言處理(NLP)、定制語音(Custom Voice)等業(yè)內(nèi)領(lǐng)先的AI技術(shù)。

央視AI唱作大熱背后是怎樣的技術(shù)?

首先,在用戶上傳圖片之后,計算機視覺和人臉識別等技術(shù)將對照片內(nèi)容如環(huán)境、人物、顏色、表情、主題等進行分析;然后基于對照片的綜合理解,智能歌詞創(chuàng)作系統(tǒng)會自動譜寫符合該照片內(nèi)容的不同的歌詞;最后,由語音合成技術(shù)模擬的央視主持人康輝或微軟智能女聲曉曉會根據(jù)歌詞內(nèi)容結(jié)合配樂伴奏進行生動的演唱。用戶就這樣,得到了自己專屬定制的MP3歌曲。

根據(jù)官方數(shù)據(jù)統(tǒng)計結(jié)果,《你的生活,AI為你唱作》在央視新聞新媒體各平臺上線僅2小時,用戶參與量就超過了300萬人次,截至2019年2月8日,在各平臺閱讀量3800萬,利用AI聲音創(chuàng)作視頻閱讀量3500萬,微博相關(guān)話題閱讀量2700萬,AI相關(guān)產(chǎn)品在央視新聞各賬號總閱讀量已超過1億。以上數(shù)據(jù)直觀的顯示出,該融媒體產(chǎn)品的受歡迎程度。

AI應(yīng)用產(chǎn)品大規(guī)模爆發(fā),正值新舊媒體交替,融合發(fā)展之際。借此節(jié)點,近日,雷鋒網(wǎng)與其它兩家媒體,一同對參與這個項目的微軟多個團隊進行了采訪。

受訪人:

  • 李冕 微軟(中國)資深產(chǎn)品市場經(jīng)理

  • 韋福如 微軟亞洲研究院自然語言計算組資深研究員

  • 李迎彤 微軟亞太研發(fā)集團云計算與人工智能事業(yè)部微軟新視界創(chuàng)新總監(jiān)

  • 劉越穎 微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理

AI唱作交互產(chǎn)品,背后的“故事”

在《你的生活,AI為你唱作》融媒體交互產(chǎn)品中,無論是央視主持人康輝,還是微軟智能女聲曉曉,均采用了微軟深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)。微軟的深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù),是基于端到端的神經(jīng)網(wǎng)絡(luò)聲學模型和聲音合成系統(tǒng)開發(fā)的。通過優(yōu)化發(fā)音和韻律,該技術(shù)可以比傳統(tǒng)的語音合成技術(shù)生成更逼真、更自然的人工智能聲音。其中,康輝的聲音更是用到了基于深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型的定制化語音技術(shù)。微軟的定制服務(wù)平臺僅需要使用說話人的少量語音數(shù)據(jù),就可以制作出高質(zhì)量的不同風格的智能語音,而在這個項目中,康輝的說唱風格就是基于不到半小時的數(shù)據(jù)訓(xùn)練的。

而微軟智能女聲曉曉則是微軟面向全球開發(fā)者和合作伙伴發(fā)布的一個通用聲音。該聲音可以通過微軟認知服務(wù)平臺(Azure Cognitive Services)提供的API接口進行實時調(diào)用。用戶們可以直接將曉曉的聲音用于智能助理、智能客服、智能汽車、智能朗讀等場景中。據(jù)劉越穎介紹,一個有趣的現(xiàn)象是,在《你的生活,AI為你創(chuàng)作》產(chǎn)品中,曉曉聲音的使用次數(shù)超過了康輝老師的次數(shù)。這也體現(xiàn)出大家對微軟智能女聲曉曉的喜愛。

微軟語音組提到,在《你的生活,AI為你唱作》產(chǎn)品中,主要的語音技術(shù)特點為:

  • 產(chǎn)品化的基于深度神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)

  • 定制語音合成所需訓(xùn)練數(shù)據(jù)量更少(康輝的數(shù)據(jù)不到一個小時)。

  • 深度神經(jīng)網(wǎng)絡(luò)的語音合成模型讓聲音更逼真和自然

  • 語音合成可以擴展到多種說話的風格(比如這次的說唱風格)

  • 平臺化的定制語音讓開發(fā)周期更短

同時,微軟語音團隊也提到了其它方面的特點:

  • 靈活的部署方案:支持公有云部署;私有化部署;離線部署

  • 多語言國際化支持:微軟語音合成支持全球49個語言,近80個聲音。深度神經(jīng)網(wǎng)絡(luò)支持中文和英文。

  • 工業(yè)云計算平臺:微軟語音合成支持全球十幾個數(shù)據(jù)中心;深度神經(jīng)網(wǎng)絡(luò)可以達到產(chǎn)品級的實時率;支持高并發(fā)。

  • 全系列語音支持:微軟語音可以提供整套的語音識別,翻譯,語音合成等解決方案,可以支持智能客服,翻譯等場景。利用微軟語音解決方已經(jīng)落地的場景如小米9手機王源聲音的定制,ROOBO智能機器人、智能會議系統(tǒng),微軟翻譯,微軟聽聽文檔等。

正如李迎彤所說,應(yīng)用要瞬間觸達到很多人的手機上。高并發(fā)且巨量的網(wǎng)絡(luò)和計算需求,背后需要強大的云端基礎(chǔ)設(shè)施做支持。

其實,微軟與央視新聞的合作,源于CCTV團隊春節(jié)前在微軟新視界技術(shù)展示中心的一次參觀。用李冕的話來說,此次合作偶然中帶著必然,一方面,AI技術(shù)不斷出現(xiàn)重大突破。例如去年9月份,微軟率先發(fā)布了企業(yè)級定制語音合成平臺,企業(yè)可以根據(jù)自己想要的音色來微軟的平臺上定制聲音。去年12月份,微軟在語音方面進一步實現(xiàn)重大的技術(shù)突破,即深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù),一下子讓原來的語音合成領(lǐng)域,很多不能做到的都可以實現(xiàn)了。具體而言,自然度方面可以更加像人類,語氣、情感方面也得到很大的提升。

另一方面,在行業(yè)“轉(zhuǎn)型”的大環(huán)境下,傳統(tǒng)媒體正向新媒體融合發(fā)展。傳統(tǒng)企業(yè)也需要與新興技術(shù)、新興產(chǎn)業(yè)結(jié)合,順應(yīng)時代的潮流,承接未來的要求。其實,無論是小米9王源定制版聲音、央視主持人康輝定制版聲音,還是去年微軟小冰入駐小米智能音箱、華為手機,均體現(xiàn)了微軟的全方位AI能力。未來無論是視覺、聽覺,還是語音,在制造業(yè)、零售、媒體、教育、醫(yī)療、金融等諸多領(lǐng)域會都有相當廣泛的應(yīng)用場景。

特別是,此次與央視新聞合作的融媒體產(chǎn)品,是來自微軟基礎(chǔ)研究的自然語言部門,以及語音產(chǎn)品部門、智能云產(chǎn)品部門和市場部門的能人們跨部門組成項目組,在不到一個月的時間內(nèi)與央視深度合作,實現(xiàn)了將用戶輸入圖片以Rap的方式唱出來的即時體驗,融合了多項微軟的AI和云服務(wù)。

央視AI唱作大熱背后是怎樣的技術(shù)?

(雷鋒網(wǎng)注:微軟亞洲研究院自然語言計算組資深研究員韋福如

從幕后走到臺前,很多“Highlight”

提問:微軟與央視新聞合作,背后有著怎樣的考量?

李冕:最初當央視提出來合作需求的時候,我們考慮過幾個方向。首先一定是用戶體驗要好。其次,盡管時間緊,但是當時我們想,微軟在AI的各個方面都有相當多的技術(shù)積累,可以說是全棧式的,那么我們把步子就邁得更大一些。其實這個項目里用到了很多的不同AI技術(shù),如圖像識別、自然語言處理、語音識別、語音合成等,以及微軟智能云的能力。

所以,最后我們決定在春節(jié)這個特殊的時間節(jié)點,和CCTV一起推出來給廣大的用戶、網(wǎng)民們一個比較好玩和溫暖的產(chǎn)品體驗。同時,對于微軟內(nèi)部而言也是檢閱AI和云各部門快速協(xié)同和落地能力的機會,所以當時我們就去做了這個項目。

提問:整個合作過程有哪些難點?

韋福如:從自然語言方面來講,用戶對歌詞的要求是什么,有一些不同的地方。因為歌詞講究更接近生活,朗朗上口。輸入部分,要從圖片里獲得盡可能多的信息。如最基本的要知道圖片中是什么環(huán)境,有什么物體,有沒有人,有幾個人,大概年齡等等。還有一些更細致的內(nèi)容,比如,人的性別,表情如何,顏色背景等等……我們需要把這些圖像處理的結(jié)果映射到歌詞生成用到的關(guān)鍵詞,然后再用基于深度學習的歌詞創(chuàng)作模型一句一句生成整首歌詞。但事實上,圖片識別的一般結(jié)果從數(shù)量和類別上都很難滿足歌曲作詞所需要的想象力要求,這就需要我們把這些信息再處理到更細致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。一般歌詞有十來句,甚至一二十句,所以需要做更多的處理。  

同時,還需要基于很多數(shù)據(jù)。數(shù)據(jù)方面大家很容易想到的是歌詞,我們抓取了很多歌詞。用戶從生成的歌詞中應(yīng)該感受到了中國傳統(tǒng)文化的氣息,這其中我們使用了宋詞去訓(xùn)練模型。另外一個難點,大家熟悉的歌詞或者宋詞,整體上可能感物思人、傷春悲秋的比較多。但是春節(jié)期間,我們希望大家都開開心心。所以在這方面我們也在算法上做了調(diào)整。比如我們會盡可能讓算法生成積極一些的句子,另外包括有一些多音字,也會做相應(yīng)處理。所以從技術(shù)上來講,一個是長期的積累,包括技術(shù)和文化;第二個是針對這樣特殊的應(yīng)用,做一些細節(jié)上的適應(yīng)調(diào)整。

當然,人類的創(chuàng)造能力是很強的,機器的優(yōu)勢則更多表現(xiàn)在記憶。比如韻律,一般人不太容易掌握,但是對于機器和算法來說,則很容易做到。基礎(chǔ)研究上還有很多很長的路要走,AI在創(chuàng)造內(nèi)容方面的能力還是有限的。

提問:不管TTS(Text to Speech)也好,還是圖象識別也好,遇到的最大困難是什么,怎樣解決的?

韋福如:比較難的是,通過圖像輸出給出歌詞還是太抽象了。比如,它只知道里面有人臉,只知道里面有人,或者只知道里面有幾個人。這種情況下,去寫歌詞非常難,所以我們需要把這些信息處理到更細致的關(guān)鍵詞上去,然后從這些關(guān)鍵詞再生成歌詞。歌詞有十來句,甚至一二十句,實際上要做更多的處理。  

李冕:我們的場景有點像是小學語文考試里面的看圖作文,給你一張圖。當然我們這個是彩色圖,那個是一張圖或者是兩張圖,然后讓你編出一個作文來。我們做的有點像看圖做詩,整條鏈路下來,中間的坑點其實是挺多的。

提問:可以重點介紹一下微軟在閱讀理解方面的優(yōu)勢嗎?

韋福如: SQuAD機器閱讀理解數(shù)據(jù)集,最近兩年特別火。在工業(yè)界和研究領(lǐng)域都得到了廣泛的關(guān)注。

2018年1月,微軟亞洲研究院提交的模型在EM值上以82.650的最高分率先超越人類分數(shù)82.304。9月份,我們的模型在EM值和F1值兩個維度上,以85.954和91.677的分數(shù)首次全面超越人類在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月,基于BERT開發(fā)的最新系統(tǒng)又在SQuAD2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上持續(xù)領(lǐng)先。

提問:人工智能的“表達方式”,畢竟不同于人類。人類具有感情、思維,在說話的過程中兼具情感的表達,同時也是一個自然人性格、個性的重要體現(xiàn)方式。情感的表達體現(xiàn)在算法上,是怎樣一個過程?微軟TTS在機器情感輸出方面有何看法?

劉越穎:機器的情感主要由兩方面決定:數(shù)據(jù)和算法。微軟TTS(Text to Speech)在數(shù)據(jù)采集時,與以往不同,更注重情感和意思的表達。同時,基于深度神經(jīng)網(wǎng)絡(luò)TTS的算法具有更強的學習能力,可以更好的還原情感,具有更高的自然度。最后,我們加入了多情感和多風格的聲學建模,并在合成中進行精確控制。

提問:中文表達與英文等存在語種差異。對于人類而言,換氣、停頓、同音字、斷句的判斷,是很容易的過程,對于NLP就比較難。請問,微軟在“仿人類”語言的細節(jié)處理方面有什么經(jīng)驗以及進展?

劉越穎:微軟在語音方面已經(jīng)做了很多年。包括從最開始的參數(shù)合成、單元拼接,到這次的深度神經(jīng)網(wǎng)絡(luò)的語音合成,都是一步步積累下來的。此次的深度神經(jīng)網(wǎng)絡(luò),跟原來不一樣。傳統(tǒng)的做法可以理解為每個音都拆成不同的單元,通過比較大量的音節(jié)單元的積累,就可以把不同的音節(jié)單元拼接起來,拼成一句話,但那種合成是比較機械,拼接過程中不圓順的地方就會有機器感,或者是不太自然的地方。

但是深度神經(jīng)網(wǎng)絡(luò)語音合成,是一個端到端的語音合成系統(tǒng),包含端到端的聲學和韻律建模,以及聲音合成模型??梢钥朔鹘y(tǒng)語音合成系統(tǒng)的局限性,優(yōu)化口語和唱歌中的重音,語調(diào)和節(jié)奏,大幅提升了語音合成的表現(xiàn)力,具有更自然的韻律和更豐富的情感。

中文表達主要涉及停連、重音、語氣、節(jié)奏,以及對內(nèi)容的理解。微軟深度神經(jīng)網(wǎng)絡(luò)TTS可以逼真地還原人類的換氣聲音,使得語音合成更具有人類的特征。對于斷句、停頓、多音字,微軟針對不同語言要素,進行有針對性的建模,然后利用端到端的聲學建模,從真實語音中學到最適當?shù)谋磉_方式。 

提問:除了語音技術(shù),還用到其它哪方面的能力?

韋福如:我們會用很多不同的圖像識別技術(shù),有數(shù)十萬個標簽和一百多個類。有幾張人臉時,能知道這個人是開心的,還是處于怎樣的狀態(tài)。以及圖像中人物的性別,我們需要拿這些信息去創(chuàng)作歌詞。拿到圖像識別信息之后,首先要把這些信息,大概歸類到一些歌詞的關(guān)鍵詞上。第二步是再把歌詞一句一句生成出來,這個時候就用到序列對序列的生成模型。

提問:此次合作中,存在的商業(yè)潛力是什么?

劉越穎:現(xiàn)在是多元化、個性化的時代,每個產(chǎn)品或者是公司都希望有一個自己的形象。這個形象不僅僅是可以基于圖像層面的,也可以是基于聲音的。未來聲音定制會是一個趨勢。每個企業(yè)、設(shè)備、個人都會有一個獨特的人工智能定制聲音,讓語音融入生活的更多角落。此外,深度神經(jīng)網(wǎng)絡(luò)可以降低訓(xùn)練所需的錄音數(shù)據(jù)數(shù)量,這樣就會讓聲音定制更加成為可能,這是一個很好的合作點。

提問:此次合作,微軟在云計算方面有哪些部署?

李迎彤:從云計算的角度來講,就像日常工作生活中用到的電,大家都用電,但是并不會去特別留意它的存在。我們發(fā)展云計算也是一樣,要為大家提供最好的性能,最好的體驗。目前,微軟在中國有大量云計算的基礎(chǔ)設(shè)施投入,這次我們就運用了云平臺數(shù)據(jù)庫和網(wǎng)絡(luò)服務(wù)。微軟目前在中國建有四個數(shù)據(jù)中心分別位于北京、上海。通過云端網(wǎng)絡(luò)技術(shù),對不同地域的請求進行快速響應(yīng)。

另外,我們覆蓋全中國的內(nèi)容分發(fā)網(wǎng)絡(luò),可以保證用戶在體驗的過程中,不會受到網(wǎng)絡(luò)帶寬的影響。《你的生活,AI為你唱作》在央視平臺的推出,是面向全國范圍甚至更廣的用戶。所以我們要保證這些受眾都能夠有一個好的、快速、高效的體驗。這一定是因為我們在基礎(chǔ)設(shè)施上做了大量的投入,才能做到這樣的保障。

李冕:我們做了很多CDN的加速,我們的機房離主要的節(jié)點都很近,總體的速度還是很快的。從上傳的速度,包括并發(fā)的響應(yīng)上,在后臺看CPU跳躍的數(shù)字,我們覺得還是非常安心的。

央視AI唱作大熱背后是怎樣的技術(shù)?

(雷鋒網(wǎng)注:微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理劉越穎)

走過青銅、白銀,迎來“黃金時代”

比爾·蓋茨曾說過,“語言理解是人工智能皇冠上的明珠”。NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。換句話說,計算機誕生那一刻,人工智能AI也應(yīng)運而生。人工智能AI研究最早的領(lǐng)域就是機器翻譯以及自然語言理解。

微軟亞洲研究院自1998年創(chuàng)建以來,就給予NLP足夠的重視。微軟亞洲研究院官方數(shù)據(jù)顯示,截止2018年11月,共計發(fā)表100余篇ACL大會文章,出版《機器翻譯》和《智能問答》兩部著作,培養(yǎng)了500名實習生、20名博士和20名博士后。

微軟開發(fā)的NLP技術(shù),包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等,已經(jīng)廣泛應(yīng)用于Windows、Office、Bing、微軟認知服務(wù)、小冰、小娜等微軟產(chǎn)品中。與創(chuàng)新技術(shù)組合作研發(fā)的微軟對聯(lián)和必應(yīng)詞典,也已經(jīng)為成千上萬的用戶提供服務(wù)。

21年的時間里,無論是微軟亞洲研究院,還是AI行業(yè)。走過荒蕪、貧瘠的土地,逐漸迎來辛苦耕種后的種種“收獲”。那么,對于現(xiàn)在抑或?qū)?,微軟TTS正在做著哪些努力?

提問:微軟近期在TTS領(lǐng)域有什么新論文或者新突破,可以介紹一下,突破點以及對行業(yè)的影響?

團隊總結(jié):2018年12月,微軟語音在微軟Azure云上發(fā)布了創(chuàng)新性技術(shù)突破——端到端的深度神經(jīng)網(wǎng)絡(luò)語音模型,將語音合成帶入一個高保真的新階段(參考英文版blog)。深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)讓語音合成的的質(zhì)量以及語音模型的制作又上了一個新的臺階。我們可以感受到語音更自然;訓(xùn)練模型需要的數(shù)據(jù)量更少;支持語音模型也快速擴展到多種說話的風格。

微軟語音合成技術(shù)已經(jīng)在世界頂級期刊和會議發(fā)表了多篇論文。

LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019. 

Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.

A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.

提問:AI語音和自然語言處理是否存在技術(shù)、產(chǎn)品周期長、落地比較難的情況,從實際的落地情況來看,微軟在這方面有什么進展?未來有哪些努力的方向? 

韋福如:我自己不覺得NLP技術(shù)落地有多么難,實際上大家每天都在用,比如說搜索、輸入法和翻譯,都會用到自然語音處理的技術(shù)。當然,單純靠自然語言處理的技術(shù)驅(qū)動的面向大規(guī)模用戶的應(yīng)用和服務(wù),目前還不是特別成熟,這個主要還是有需求和場景,要能解決用戶的實際問題。

反過來看,現(xiàn)在機會在NLP,不管是從研究上還是外部的市場機會。包括很多VC也在關(guān)注。從研究上來講,2018年大家說是NLP之年,就是自然語言處理之年。已經(jīng)有很好的一些進展,比如谷歌的BERT這樣的預(yù)訓(xùn)練模型啟發(fā)了新的研究課題,讓通用語言理解成為可能且值得深入探索和重點投入的研究方向。目前,在自然語言理解的任務(wù)上,預(yù)訓(xùn)練模型很好地緩解了標注數(shù)據(jù)少和跨領(lǐng)域的問題,而這正是實際應(yīng)用中遇到的實際問題。

落地的機會也很多,在通用的理解之后,能夠比較快速地去適配到一些特定的領(lǐng)域。然后在標注數(shù)量比較少的情況下,也可以做到不錯的結(jié)果,這都是在實際中遇到的問題。我認為接下來NLP不管是研究上,落地上,還是從市場上都應(yīng)該是有非常多機會的。

劉越穎:傳統(tǒng)的AI語音合成技術(shù)存在產(chǎn)品周期長的問題。因為聲音采集的數(shù)量大,時間久,成本高。經(jīng)過微軟語音團隊多年來的研究和技術(shù)更新,目前已經(jīng)率先實現(xiàn)了平臺化、產(chǎn)品化的語音合成服務(wù)。首先,深度神經(jīng)網(wǎng)絡(luò)模型可以大大降低聲音采集的數(shù)量和成本,并且在自然度和保真度上很好的還原人聲。同時,微軟提供了平臺化的定制語音服務(wù),用戶可以自定義語音合成數(shù)據(jù)和模型,讓開發(fā)周期更短,適合更多的個性化應(yīng)用場景。所以,未來人工智能語音會有更多的落地場景,也為用戶帶來更豐富的體驗。

目前,微軟語音產(chǎn)品已經(jīng)被應(yīng)用于微軟的各類人工智能產(chǎn)品和平臺上,包括了微軟小冰,微軟小娜(Cortana),Windows,Skype,認知服務(wù)(Cognitive Service),微軟翻譯等。

此外,微軟語音產(chǎn)品也積極與第三方企業(yè)在更多場景上合作,包括智能助理、智能客服、智能汽車、智能朗讀等領(lǐng)域。除了這次CCTV的項目外,微軟語音和小米手機合作,在最新的小米旗艦機Mi9的手機內(nèi),定制了王源的明星聲音。通過語音的橋梁,拉近了粉絲與愛豆的距離。未來聲音定制會是一個趨勢。每個企業(yè),設(shè)備,個人都會有一個獨特的人工智能定制聲音,讓語音融入生活的更多角落。 

提問:未來AI方向有哪些機會?

李冕:我覺得AI的方向有三個機會。一個是,注入式AI,就是把AI技術(shù)融入到現(xiàn)有的產(chǎn)品和服務(wù)里。

第二個,有很大機會的是知識挖掘,例如搜索引擎可以看作是基于全網(wǎng)數(shù)據(jù)的通用知識庫的挖掘,已經(jīng)相對成熟。但在專業(yè)知識庫,比如現(xiàn)在大多數(shù)企業(yè)內(nèi)部,有很多數(shù)據(jù)孤島沒有打通。所以我們認為自然語言處理現(xiàn)在有能夠落地的點。

第三個,是提供機器學習的工具和平臺之上的高價值產(chǎn)品和服務(wù)。比如,幾個人攢個小團隊,也能做出人臉識別的產(chǎn)品。但并沒有多少公司能提供AI落地到生產(chǎn)場景之后對業(yè)務(wù)的進一步響應(yīng)。例如,高鐵的閘機需要7×24小時要響應(yīng)數(shù)據(jù),這部分也可以叫做AI數(shù)據(jù)推理,應(yīng)該是AI技術(shù)供應(yīng)商能提供的增值服務(wù),這樣才能幫助各個傳統(tǒng)行業(yè)的企業(yè)客戶能夠真正將AI落地,并發(fā)揮更大的價值。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

簡單是終極的復(fù)雜。WeChat:chenxi252516
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說