0
本文作者: 貝爽 | 2021-10-10 14:19 |
“人類與虛擬世界之間的連接與溝通,必然要通過人機(jī)交互技術(shù)來完成,其實(shí)我們所做的事情最終會在元宇宙中體現(xiàn)出來,也會成為元宇宙基礎(chǔ)設(shè)施建設(shè)的重要一環(huán)。”
在CNCC大會前的專訪中,張晴晴說道。
第十八屆中國計算機(jī)大會( CNCC 2021)將于10月28日-30日在深圳國際會展中心舉行,CNCC由中國計算機(jī)學(xué)會(CFF)主辦,國家超級計算深圳中心承辦(深圳云計算中心),香港中文大學(xué)(深圳)協(xié)辦,是中國計算領(lǐng)域首屈一指的年度盛會。
在111多場技術(shù)論壇中,AI科技評論注意到,愛數(shù)智慧創(chuàng)始人兼CEO張晴晴聯(lián)合產(chǎn)學(xué)各界大咖承辦了一場【人機(jī)交互技術(shù)的機(jī)遇與挑戰(zhàn)】分論壇。提到“人機(jī)交互”難免會讓人想到最近風(fēng)靡全球的一個新概念——元宇宙(MetaVerse)。
在1992年科幻小說《雪崩》中,元宇宙被描述為一個脫胎于現(xiàn)實(shí)世界,又平行于現(xiàn)實(shí)世界,且相互影響、始終在線的虛擬世界。“元宇宙并非遙不可及的人類幻象,隨著人機(jī)交互技術(shù)的發(fā)展,也許未來人類能夠在虛擬世界與真實(shí)世界之間自由穿梭”。張晴晴告訴AI科技評論,愛數(shù)智慧之所以在CNCC大會上承辦此次論壇,元宇宙的爆火也是一個契機(jī)。
“無論是真實(shí)世界,還是虛擬世界,未來人機(jī)交互技術(shù)終究會覆蓋到人類生活的所有場景中”。希望通過這場論壇讓更多人了解人機(jī)交互技術(shù)的發(fā)展現(xiàn)狀,也希望通過產(chǎn)學(xué)結(jié)合的交流平臺,為人機(jī)交互的未來發(fā)展拓展出更多的思路。
AI科技評論了解到,本次論壇邀請中科院聲學(xué)所研究員、博士生導(dǎo)師顏永紅;愛數(shù)智慧創(chuàng)始人兼CEO張晴晴;美的集團(tuán)IoT副總裁兼CTO向江旭;阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室田彪、香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院教授宋彥出席,四位產(chǎn)學(xué)專家將就人機(jī)交互、智能語音技術(shù)的應(yīng)用、對話式AI技術(shù)、語料庫建設(shè)、多模態(tài)語音交互技術(shù)、自然語言處理等重點(diǎn)議題作主題報告。
作為論壇主席,張晴晴也將帶來一場題為《多語種對話式AI技術(shù)及語料庫建設(shè)》的主旨演講,和與會嘉賓分享對話式AI技術(shù)的機(jī)遇以及愛數(shù)智慧語料庫建設(shè)成果。
在論壇開始前,AI科技評論有幸采訪了張晴晴,與她聊了聊語音交互技術(shù)當(dāng)前的機(jī)遇與挑戰(zhàn)。
張晴晴,愛數(shù)智慧創(chuàng)始人兼CEO,語音技術(shù)專家,對話式AI引領(lǐng)者。巴黎法國國家實(shí)驗(yàn)室LIMSI-CNRS語音交互處理博士后,曾任中國科學(xué)院聲學(xué)研究所副研究員,擅長大詞匯連續(xù)語音識別的聲學(xué)建模以及語言建模工作。曾獲得2014年度中科院杰出科技成就獎和科學(xué)技術(shù)廳科學(xué)技術(shù)進(jìn)步獎一等獎。2021年被聘為中國計算機(jī)學(xué)會CCF女工委,獲得創(chuàng)業(yè)邦最值得關(guān)注的女性創(chuàng)業(yè)者。
在張晴晴看來,人機(jī)交互也好,虛擬世界也好,所有的 AI 要解決的終極問題是人的情感訴求。“人與機(jī)器之間的交互不應(yīng)該只是一問一答的簡單對話或者命令控制,而是要理解語言的上下文,識別人的情感需求并做出相應(yīng)的反饋”。
對話式的交互場景在我們的日常生活中無處不在。就目前的落地場景來看,人機(jī)對話模式仍出處在機(jī)械、呆板的初級階段,例如,當(dāng)我們感覺室內(nèi)氣溫很高時,通常會命令智能設(shè)備“打開空調(diào)”,而不是說一聲“好熱呀”,自然而真實(shí)的情感表達(dá)可能無法被AI所理解,并做出調(diào)低溫度等反饋動作。
“對話式AI的精髓是讓人類能夠隨心所欲地表達(dá)”,張晴晴強(qiáng)調(diào)。在技術(shù)層面,對話式 AI 涉及語音識別、自然語言理解和語音合成等核心技術(shù)。想要通過這些技術(shù)實(shí)現(xiàn)人和機(jī)器之間更自然的對話,張晴晴談了兩點(diǎn)技術(shù)挑戰(zhàn):
一是個體語言體系的差異化,由于所處地域、文化、教育背景的不同,每個人的語言表達(dá)都是獨(dú)特的,這種個性化在人與人之間的溝通中都難免出現(xiàn)理解偏差,更何況是一臺機(jī)器。對于AI而言,中文不是一種語言,而是13億種語言。
二是對話式口語常常會有語序顛倒,猶豫、遲疑產(chǎn)生的停頓,在復(fù)雜的多人交互場景中,也不可避免會出現(xiàn)語句打斷、搶話、交疊音等問題,這些語音特征為 AI 建模帶來了很大困難。
在張晴晴看來,真實(shí)的對話數(shù)據(jù)和多語種語料庫建設(shè)是解決上述問題的關(guān)鍵。“當(dāng)前行業(yè)提供的大部分人工智能數(shù)據(jù)都以朗讀式訓(xùn)練數(shù)據(jù)為主,而人與人自然的對話式數(shù)據(jù)對訓(xùn)練對話式 AI 有更加關(guān)鍵的作用;我們需要為機(jī)器注入知識圖譜、中文、方言、外語等多種語料,才能讓機(jī)器像人一樣理解自然語言”。
據(jù)悉,愛數(shù)智慧已擁有超過20萬小時數(shù)據(jù)產(chǎn)品,涵蓋超過60種語言,既有英語、日語等常用語種,也提供馬來語、泰語、印尼語等特色語種。張晴晴于2016年創(chuàng)辦人工智能數(shù)據(jù)公司愛數(shù)智慧,面向智慧金融,智能出行、智能家居、智能社交、智慧終端等領(lǐng)域提供數(shù)據(jù)服務(wù),包括數(shù)據(jù)的定向采集、數(shù)據(jù)的處理、標(biāo)簽化,以及高效的數(shù)據(jù)處理工具等。在她看來,“人工智能三駕馬車中,數(shù)據(jù)是算法的食糧,數(shù)據(jù)好比原油,只有經(jīng)過清洗、分類、標(biāo)注、質(zhì)檢和篩選等結(jié)構(gòu)化過程,才能用于AI模型訓(xùn)練。”
在本次主題報告中,張晴晴將從對話式AI出發(fā),探討對話式口語交互為語音識別帶來哪些挑戰(zhàn),如何通過雙語聲學(xué)建模、發(fā)音詞典如何構(gòu)建雙語識別系統(tǒng),解決非母語發(fā)音的插入語問題,以及介紹多語種語料庫建設(shè)對AI識別率提升起到積極的作用。
值得關(guān)注的是,為了滿足日益多樣化的場景需要,多模態(tài)取代單一人機(jī)交互成了產(chǎn)學(xué)界普遍關(guān)注的新方向。所謂多模態(tài)是指融合視覺、聽覺、觸覺、嗅覺甚至味覺的交互方式,其表達(dá)效率和信息都優(yōu)于單一的視覺或聽覺模式。張晴晴表示,在自然語言、視覺和語音技術(shù)日漸成熟的今天,多模態(tài)的興起是人工智能向前發(fā)展的必然趨勢。
“人類對世界的認(rèn)知也并不是單模態(tài)的。在AI真正落入產(chǎn)業(yè)的過程中,我們發(fā)現(xiàn)語音、圖像、文本之間的相互融合是一個不能避免的問題?!?/strong>在人機(jī)交互過程中,機(jī)器要想感知人的情感色彩,光靠聲音是不夠的。人的情緒既可能體現(xiàn)在聲音中,也可能蘊(yùn)含在面部表情或語言內(nèi)容中,情緒感知是一個多模態(tài)綜合評價的結(jié)果。
在本次論壇中,美的集團(tuán)IoT副總裁兼CTO向江旭、阿里巴巴達(dá)摩院研究員田彪都將帶來有關(guān)多模態(tài)人機(jī)交互的主旨演講。
CNCC2021【人機(jī)交互技術(shù)的機(jī)遇與挑戰(zhàn)】技術(shù)論壇將于2021年10月28日13:00-16:00在深圳國際會展中心CC105B召開,愛數(shù)智慧創(chuàng)始人兼CEO張晴晴擔(dān)任論壇主席,中科院聲學(xué)所研究員、博士生導(dǎo)師顏永紅擔(dān)任共同主席。本次論壇分為主旨報告和頒獎儀式兩個主要環(huán)節(jié)。以下為參會嘉賓的報告內(nèi)容:
分享嘉賓:顏永紅,中科院聲學(xué)研究員、博士生導(dǎo)師
題目:智能語音技術(shù)商用價值與應(yīng)用前景
隨著智能語音在各場景的應(yīng)用落地,智能語音交互核心技術(shù)在關(guān)鍵行業(yè)領(lǐng)域的商業(yè)應(yīng)用前景和價值也越來越大,將成為引領(lǐng)新一輪產(chǎn)業(yè)集群開發(fā)與傳統(tǒng)企業(yè)升級的核心認(rèn)知。報告將深度評估與解析全球及我國在智能語音領(lǐng)域關(guān)鍵性技術(shù)并給出前瞻的應(yīng)用創(chuàng)新建議。
分享嘉賓:張晴晴,愛數(shù)智慧創(chuàng)始人兼CEO
題目:多語種對話式AI技術(shù)及語料庫建設(shè)
如今對話式AI成為人工智能行業(yè)發(fā)展的重要方向,在各大行業(yè)場景中得到廣泛的應(yīng)用。但人工智能要想與人實(shí)現(xiàn)更自然的對話,還需克服很多難題。人機(jī)對話面對較為復(fù)雜的場景,其中多語種混雜現(xiàn)象愈發(fā)頻繁,如何提升機(jī)器識別多語種混合表達(dá)的能力?報告從對話式AI出發(fā),探討對話式口語交互為語音識別帶來哪些挑戰(zhàn),通過雙語聲學(xué)建模、發(fā)音詞典如何構(gòu)建雙語識別系統(tǒng),解決非母語發(fā)音的插入語問題。同時,多語種語料庫建設(shè)對AI識別率提升起到積極的作用。
分享嘉賓:向江旭,美的集團(tuán) loT 副總裁兼CTO
題目:多模感知和人機(jī)交互在智能家居的應(yīng)用探索
AI與IoT的結(jié)合已經(jīng)是行業(yè)趨勢,AI根據(jù)人機(jī)交互技術(shù)和對海量不同場景數(shù)據(jù)的學(xué)習(xí),進(jìn)行對未來的預(yù)測和洞察,而多模感知將大量的數(shù)據(jù)“采集起來”,由IoT將這些數(shù)據(jù)“分發(fā)”到AI的交互技術(shù)當(dāng)中,實(shí)現(xiàn)世界的“AI大腦”端到端的鏈接。智能家居是離消費(fèi)者最近的AIoT場景,報告將分享美的多模感知技術(shù)、人工智能技術(shù)與物聯(lián)網(wǎng)在智能家居的應(yīng)用中的落地融合。
分享嘉賓:田彪,阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室
題目:多模態(tài)語音交互的技術(shù)實(shí)踐及發(fā)展趨勢
隨著5G和AIoT技術(shù)的快速發(fā)展,語音和視覺等多模態(tài)技術(shù)的融合逐步加深,在新型人機(jī)交互入口中的作用越來越明顯,本報告以阿里巴巴在智能交通領(lǐng)域的「地鐵多模態(tài)語音售票機(jī)」和協(xié)同辦公領(lǐng)域的「釘釘智能無人前臺」的產(chǎn)品研發(fā)實(shí)踐為基礎(chǔ),介紹聲學(xué)設(shè)計、麥克風(fēng)陣列處理、遠(yuǎn)場語音對話、人臉檢測與識別等多模態(tài)技術(shù)的設(shè)計思想與方案架構(gòu),在多模態(tài)數(shù)據(jù)的助力下,如何在公眾嘈雜場景進(jìn)行多模態(tài)融合從而給用戶帶來更好的產(chǎn)品體驗(yàn)。同時結(jié)合產(chǎn)業(yè)落地情況與研究進(jìn)展介紹下一代的產(chǎn)品和技術(shù)演進(jìn)趨勢。
分享嘉賓:宋彥,香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院教授
題目:面向領(lǐng)域的中文自然語言處理面對的數(shù)據(jù)挑戰(zhàn)及機(jī)遇
自然語言處理作為人工智能的核心板塊,承載著大量針對大規(guī)模以文本為載體的數(shù)據(jù)處理的需求,近年來發(fā)展出了各類基于大數(shù)據(jù)的處理方案(例如預(yù)訓(xùn)練模型等),對數(shù)據(jù)的數(shù)量和質(zhì)量提出了較高的要求。與通用領(lǐng)域相似,面向特定領(lǐng)域的文本處理任務(wù),從基礎(chǔ)的例如分詞、命名實(shí)體識別等,到復(fù)雜的例如閱讀理解、機(jī)器翻譯等,都需要大規(guī)模高質(zhì)量數(shù)據(jù)的支持。然而,與英文相比,目前中文特定領(lǐng)域的數(shù)據(jù)建設(shè)尚不成熟,不論是可用于訓(xùn)練預(yù)訓(xùn)練模型的高質(zhì)量未標(biāo)注文本,還是針對特定任務(wù)的高質(zhì)量標(biāo)注數(shù)據(jù),都十分稀缺。這些數(shù)據(jù)的稀缺使得目前難以訓(xùn)練高性能的中文文本處理模型,進(jìn)而導(dǎo)致中文特定領(lǐng)域目前仍缺少公開的、被廣泛使用的高質(zhì)量的基礎(chǔ)文本處理工具。因此,大力發(fā)展中文領(lǐng)域內(nèi)數(shù)據(jù)建設(shè),是一項(xiàng)長期且具有重大意義的工作,能夠?yàn)槲磥碇形奈谋咎幚碓诟鱾€行業(yè)的深度發(fā)展提供基石,以至于成為自然語言處理發(fā)展下一個階段的重大且實(shí)際的機(jī)遇。
論壇最后,還將舉辦“中文臨床醫(yī)學(xué)文本分詞與命名實(shí)體挑戰(zhàn)賽”頒獎儀式,獲得該比賽獎項(xiàng)的參賽者將獲得相應(yīng)證書和獎金。該賽事由愛數(shù)智慧和香港中文大學(xué)(深圳)聯(lián)合主辦。從9月1日正式啟動到10月28日截止,持續(xù)近兩個月的賽程集結(jié)了中科院自動化所、復(fù)旦大學(xué)、南京大學(xué)、華為、平安等高校和企業(yè)超過40個團(tuán)體的熱情參與。
本次NLP競賽圍繞中文臨床醫(yī)學(xué)文本內(nèi)容,對醫(yī)療文本的分詞和命名實(shí)體進(jìn)行自然語言處理任務(wù),以醫(yī)療問答為切入點(diǎn),推動NLP技術(shù)創(chuàng)新,努力擴(kuò)展到更多應(yīng)用場景。來自愛數(shù)智慧和香港中文大學(xué)(深圳)、英特爾OpenVINO中文社區(qū)的專家組成競賽組委會,全程給予了答疑支持和指導(dǎo)。
本次競賽分三個賽道:臨床醫(yī)學(xué)文本分詞、臨床醫(yī)學(xué)文本NER和OpenVINO 推理。參賽團(tuán)隊(duì)可同時選擇多個賽道參賽,最高可獲得總額11,000元獎金。獲獎團(tuán)隊(duì)將在本次論壇上進(jìn)行現(xiàn)場成果演示。
CNCC是計算領(lǐng)域?qū)W術(shù)界、產(chǎn)業(yè)界、教育界的年度盛會,宏觀探討技術(shù)發(fā)展趨勢,今年預(yù)計參會人數(shù)將達(dá)到萬人。每年特邀報告的座上嘉賓匯聚了院士、圖領(lǐng)獎得主、國內(nèi)外名校學(xué)者、名企領(lǐng)軍人物、各領(lǐng)域極具影響力的業(yè)內(nèi)專家,豪華的嘉賓陣容凸顯著CNCC的頂級行業(yè)水準(zhǔn)及業(yè)內(nèi)影響力。
CNCC2021大以“計算賦能加速數(shù)字化轉(zhuǎn)型”為主題,特邀嘉賓包括ACM圖靈獎獲得者John Hopcroft教授和Barbara Liskov教授,南加州大學(xué)計算機(jī)科學(xué)系和空間研究所YolandaGil教授,陳維江、馮登國、郭光燦、孫凝暉、王懷民等多位院士,及眾多深具業(yè)內(nèi)影響力的專家。今年的技術(shù)論壇多達(dá)111個,無論從數(shù)量、質(zhì)量還是覆蓋,都開創(chuàng)了歷史之最,將為參會者帶來學(xué)術(shù)、技術(shù)、產(chǎn)業(yè)、教育、科普等方面的全方位體驗(yàn)。大會期間還將首次舉辦“會員之夜”大型主題狂歡活動,讓參會者暢快交流。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。