0
本文作者: 貝爽 | 2021-10-10 14:19 |
“人類與虛擬世界之間的連接與溝通,必然要通過人機交互技術(shù)來完成,其實我們所做的事情最終會在元宇宙中體現(xiàn)出來,也會成為元宇宙基礎(chǔ)設施建設的重要一環(huán)。”
在CNCC大會前的專訪中,張晴晴說道。
第十八屆中國計算機大會( CNCC 2021)將于10月28日-30日在深圳國際會展中心舉行,CNCC由中國計算機學會(CFF)主辦,國家超級計算深圳中心承辦(深圳云計算中心),香港中文大學(深圳)協(xié)辦,是中國計算領(lǐng)域首屈一指的年度盛會。
在111多場技術(shù)論壇中,AI科技評論注意到,愛數(shù)智慧創(chuàng)始人兼CEO張晴晴聯(lián)合產(chǎn)學各界大咖承辦了一場【人機交互技術(shù)的機遇與挑戰(zhàn)】分論壇。提到“人機交互”難免會讓人想到最近風靡全球的一個新概念——元宇宙(MetaVerse)。
在1992年科幻小說《雪崩》中,元宇宙被描述為一個脫胎于現(xiàn)實世界,又平行于現(xiàn)實世界,且相互影響、始終在線的虛擬世界。“元宇宙并非遙不可及的人類幻象,隨著人機交互技術(shù)的發(fā)展,也許未來人類能夠在虛擬世界與真實世界之間自由穿梭”。張晴晴告訴AI科技評論,愛數(shù)智慧之所以在CNCC大會上承辦此次論壇,元宇宙的爆火也是一個契機。
“無論是真實世界,還是虛擬世界,未來人機交互技術(shù)終究會覆蓋到人類生活的所有場景中”。希望通過這場論壇讓更多人了解人機交互技術(shù)的發(fā)展現(xiàn)狀,也希望通過產(chǎn)學結(jié)合的交流平臺,為人機交互的未來發(fā)展拓展出更多的思路。
AI科技評論了解到,本次論壇邀請中科院聲學所研究員、博士生導師顏永紅;愛數(shù)智慧創(chuàng)始人兼CEO張晴晴;美的集團IoT副總裁兼CTO向江旭;阿里巴巴達摩院語音實驗室田彪、香港中文大學(深圳)數(shù)據(jù)科學學院教授宋彥出席,四位產(chǎn)學專家將就人機交互、智能語音技術(shù)的應用、對話式AI技術(shù)、語料庫建設、多模態(tài)語音交互技術(shù)、自然語言處理等重點議題作主題報告。
作為論壇主席,張晴晴也將帶來一場題為《多語種對話式AI技術(shù)及語料庫建設》的主旨演講,和與會嘉賓分享對話式AI技術(shù)的機遇以及愛數(shù)智慧語料庫建設成果。
在論壇開始前,AI科技評論有幸采訪了張晴晴,與她聊了聊語音交互技術(shù)當前的機遇與挑戰(zhàn)。
張晴晴,愛數(shù)智慧創(chuàng)始人兼CEO,語音技術(shù)專家,對話式AI引領(lǐng)者。巴黎法國國家實驗室LIMSI-CNRS語音交互處理博士后,曾任中國科學院聲學研究所副研究員,擅長大詞匯連續(xù)語音識別的聲學建模以及語言建模工作。曾獲得2014年度中科院杰出科技成就獎和科學技術(shù)廳科學技術(shù)進步獎一等獎。2021年被聘為中國計算機學會CCF女工委,獲得創(chuàng)業(yè)邦最值得關(guān)注的女性創(chuàng)業(yè)者。
在張晴晴看來,人機交互也好,虛擬世界也好,所有的 AI 要解決的終極問題是人的情感訴求。“人與機器之間的交互不應該只是一問一答的簡單對話或者命令控制,而是要理解語言的上下文,識別人的情感需求并做出相應的反饋”。
對話式的交互場景在我們的日常生活中無處不在。就目前的落地場景來看,人機對話模式仍出處在機械、呆板的初級階段,例如,當我們感覺室內(nèi)氣溫很高時,通常會命令智能設備“打開空調(diào)”,而不是說一聲“好熱呀”,自然而真實的情感表達可能無法被AI所理解,并做出調(diào)低溫度等反饋動作。
“對話式AI的精髓是讓人類能夠隨心所欲地表達”,張晴晴強調(diào)。在技術(shù)層面,對話式 AI 涉及語音識別、自然語言理解和語音合成等核心技術(shù)。想要通過這些技術(shù)實現(xiàn)人和機器之間更自然的對話,張晴晴談了兩點技術(shù)挑戰(zhàn):
一是個體語言體系的差異化,由于所處地域、文化、教育背景的不同,每個人的語言表達都是獨特的,這種個性化在人與人之間的溝通中都難免出現(xiàn)理解偏差,更何況是一臺機器。對于AI而言,中文不是一種語言,而是13億種語言。
二是對話式口語常常會有語序顛倒,猶豫、遲疑產(chǎn)生的停頓,在復雜的多人交互場景中,也不可避免會出現(xiàn)語句打斷、搶話、交疊音等問題,這些語音特征為 AI 建模帶來了很大困難。
在張晴晴看來,真實的對話數(shù)據(jù)和多語種語料庫建設是解決上述問題的關(guān)鍵?!爱斍靶袠I(yè)提供的大部分人工智能數(shù)據(jù)都以朗讀式訓練數(shù)據(jù)為主,而人與人自然的對話式數(shù)據(jù)對訓練對話式 AI 有更加關(guān)鍵的作用;我們需要為機器注入知識圖譜、中文、方言、外語等多種語料,才能讓機器像人一樣理解自然語言”。
據(jù)悉,愛數(shù)智慧已擁有超過20萬小時數(shù)據(jù)產(chǎn)品,涵蓋超過60種語言,既有英語、日語等常用語種,也提供馬來語、泰語、印尼語等特色語種。張晴晴于2016年創(chuàng)辦人工智能數(shù)據(jù)公司愛數(shù)智慧,面向智慧金融,智能出行、智能家居、智能社交、智慧終端等領(lǐng)域提供數(shù)據(jù)服務,包括數(shù)據(jù)的定向采集、數(shù)據(jù)的處理、標簽化,以及高效的數(shù)據(jù)處理工具等。在她看來,“人工智能三駕馬車中,數(shù)據(jù)是算法的食糧,數(shù)據(jù)好比原油,只有經(jīng)過清洗、分類、標注、質(zhì)檢和篩選等結(jié)構(gòu)化過程,才能用于AI模型訓練?!?/strong>
在本次主題報告中,張晴晴將從對話式AI出發(fā),探討對話式口語交互為語音識別帶來哪些挑戰(zhàn),如何通過雙語聲學建模、發(fā)音詞典如何構(gòu)建雙語識別系統(tǒng),解決非母語發(fā)音的插入語問題,以及介紹多語種語料庫建設對AI識別率提升起到積極的作用。
值得關(guān)注的是,為了滿足日益多樣化的場景需要,多模態(tài)取代單一人機交互成了產(chǎn)學界普遍關(guān)注的新方向。所謂多模態(tài)是指融合視覺、聽覺、觸覺、嗅覺甚至味覺的交互方式,其表達效率和信息都優(yōu)于單一的視覺或聽覺模式。張晴晴表示,在自然語言、視覺和語音技術(shù)日漸成熟的今天,多模態(tài)的興起是人工智能向前發(fā)展的必然趨勢。
“人類對世界的認知也并不是單模態(tài)的。在AI真正落入產(chǎn)業(yè)的過程中,我們發(fā)現(xiàn)語音、圖像、文本之間的相互融合是一個不能避免的問題。”在人機交互過程中,機器要想感知人的情感色彩,光靠聲音是不夠的。人的情緒既可能體現(xiàn)在聲音中,也可能蘊含在面部表情或語言內(nèi)容中,情緒感知是一個多模態(tài)綜合評價的結(jié)果。
在本次論壇中,美的集團IoT副總裁兼CTO向江旭、阿里巴巴達摩院研究員田彪都將帶來有關(guān)多模態(tài)人機交互的主旨演講。
CNCC2021【人機交互技術(shù)的機遇與挑戰(zhàn)】技術(shù)論壇將于2021年10月28日13:00-16:00在深圳國際會展中心CC105B召開,愛數(shù)智慧創(chuàng)始人兼CEO張晴晴擔任論壇主席,中科院聲學所研究員、博士生導師顏永紅擔任共同主席。本次論壇分為主旨報告和頒獎儀式兩個主要環(huán)節(jié)。以下為參會嘉賓的報告內(nèi)容:
分享嘉賓:顏永紅,中科院聲學研究員、博士生導師
題目:智能語音技術(shù)商用價值與應用前景
隨著智能語音在各場景的應用落地,智能語音交互核心技術(shù)在關(guān)鍵行業(yè)領(lǐng)域的商業(yè)應用前景和價值也越來越大,將成為引領(lǐng)新一輪產(chǎn)業(yè)集群開發(fā)與傳統(tǒng)企業(yè)升級的核心認知。報告將深度評估與解析全球及我國在智能語音領(lǐng)域關(guān)鍵性技術(shù)并給出前瞻的應用創(chuàng)新建議。
分享嘉賓:張晴晴,愛數(shù)智慧創(chuàng)始人兼CEO
題目:多語種對話式AI技術(shù)及語料庫建設
如今對話式AI成為人工智能行業(yè)發(fā)展的重要方向,在各大行業(yè)場景中得到廣泛的應用。但人工智能要想與人實現(xiàn)更自然的對話,還需克服很多難題。人機對話面對較為復雜的場景,其中多語種混雜現(xiàn)象愈發(fā)頻繁,如何提升機器識別多語種混合表達的能力?報告從對話式AI出發(fā),探討對話式口語交互為語音識別帶來哪些挑戰(zhàn),通過雙語聲學建模、發(fā)音詞典如何構(gòu)建雙語識別系統(tǒng),解決非母語發(fā)音的插入語問題。同時,多語種語料庫建設對AI識別率提升起到積極的作用。
分享嘉賓:向江旭,美的集團 loT 副總裁兼CTO
題目:多模感知和人機交互在智能家居的應用探索
AI與IoT的結(jié)合已經(jīng)是行業(yè)趨勢,AI根據(jù)人機交互技術(shù)和對海量不同場景數(shù)據(jù)的學習,進行對未來的預測和洞察,而多模感知將大量的數(shù)據(jù)“采集起來”,由IoT將這些數(shù)據(jù)“分發(fā)”到AI的交互技術(shù)當中,實現(xiàn)世界的“AI大腦”端到端的鏈接。智能家居是離消費者最近的AIoT場景,報告將分享美的多模感知技術(shù)、人工智能技術(shù)與物聯(lián)網(wǎng)在智能家居的應用中的落地融合。
分享嘉賓:田彪,阿里巴巴達摩院語音實驗室
題目:多模態(tài)語音交互的技術(shù)實踐及發(fā)展趨勢
隨著5G和AIoT技術(shù)的快速發(fā)展,語音和視覺等多模態(tài)技術(shù)的融合逐步加深,在新型人機交互入口中的作用越來越明顯,本報告以阿里巴巴在智能交通領(lǐng)域的「地鐵多模態(tài)語音售票機」和協(xié)同辦公領(lǐng)域的「釘釘智能無人前臺」的產(chǎn)品研發(fā)實踐為基礎(chǔ),介紹聲學設計、麥克風陣列處理、遠場語音對話、人臉檢測與識別等多模態(tài)技術(shù)的設計思想與方案架構(gòu),在多模態(tài)數(shù)據(jù)的助力下,如何在公眾嘈雜場景進行多模態(tài)融合從而給用戶帶來更好的產(chǎn)品體驗。同時結(jié)合產(chǎn)業(yè)落地情況與研究進展介紹下一代的產(chǎn)品和技術(shù)演進趨勢。
分享嘉賓:宋彥,香港中文大學(深圳)數(shù)據(jù)科學學院教授
題目:面向領(lǐng)域的中文自然語言處理面對的數(shù)據(jù)挑戰(zhàn)及機遇
自然語言處理作為人工智能的核心板塊,承載著大量針對大規(guī)模以文本為載體的數(shù)據(jù)處理的需求,近年來發(fā)展出了各類基于大數(shù)據(jù)的處理方案(例如預訓練模型等),對數(shù)據(jù)的數(shù)量和質(zhì)量提出了較高的要求。與通用領(lǐng)域相似,面向特定領(lǐng)域的文本處理任務,從基礎(chǔ)的例如分詞、命名實體識別等,到復雜的例如閱讀理解、機器翻譯等,都需要大規(guī)模高質(zhì)量數(shù)據(jù)的支持。然而,與英文相比,目前中文特定領(lǐng)域的數(shù)據(jù)建設尚不成熟,不論是可用于訓練預訓練模型的高質(zhì)量未標注文本,還是針對特定任務的高質(zhì)量標注數(shù)據(jù),都十分稀缺。這些數(shù)據(jù)的稀缺使得目前難以訓練高性能的中文文本處理模型,進而導致中文特定領(lǐng)域目前仍缺少公開的、被廣泛使用的高質(zhì)量的基礎(chǔ)文本處理工具。因此,大力發(fā)展中文領(lǐng)域內(nèi)數(shù)據(jù)建設,是一項長期且具有重大意義的工作,能夠為未來中文文本處理在各個行業(yè)的深度發(fā)展提供基石,以至于成為自然語言處理發(fā)展下一個階段的重大且實際的機遇。
論壇最后,還將舉辦“中文臨床醫(yī)學文本分詞與命名實體挑戰(zhàn)賽”頒獎儀式,獲得該比賽獎項的參賽者將獲得相應證書和獎金。該賽事由愛數(shù)智慧和香港中文大學(深圳)聯(lián)合主辦。從9月1日正式啟動到10月28日截止,持續(xù)近兩個月的賽程集結(jié)了中科院自動化所、復旦大學、南京大學、華為、平安等高校和企業(yè)超過40個團體的熱情參與。
本次NLP競賽圍繞中文臨床醫(yī)學文本內(nèi)容,對醫(yī)療文本的分詞和命名實體進行自然語言處理任務,以醫(yī)療問答為切入點,推動NLP技術(shù)創(chuàng)新,努力擴展到更多應用場景。來自愛數(shù)智慧和香港中文大學(深圳)、英特爾OpenVINO中文社區(qū)的專家組成競賽組委會,全程給予了答疑支持和指導。
本次競賽分三個賽道:臨床醫(yī)學文本分詞、臨床醫(yī)學文本NER和OpenVINO 推理。參賽團隊可同時選擇多個賽道參賽,最高可獲得總額11,000元獎金。獲獎團隊將在本次論壇上進行現(xiàn)場成果演示。
CNCC是計算領(lǐng)域?qū)W術(shù)界、產(chǎn)業(yè)界、教育界的年度盛會,宏觀探討技術(shù)發(fā)展趨勢,今年預計參會人數(shù)將達到萬人。每年特邀報告的座上嘉賓匯聚了院士、圖領(lǐng)獎得主、國內(nèi)外名校學者、名企領(lǐng)軍人物、各領(lǐng)域極具影響力的業(yè)內(nèi)專家,豪華的嘉賓陣容凸顯著CNCC的頂級行業(yè)水準及業(yè)內(nèi)影響力。
CNCC2021大以“計算賦能加速數(shù)字化轉(zhuǎn)型”為主題,特邀嘉賓包括ACM圖靈獎獲得者John Hopcroft教授和Barbara Liskov教授,南加州大學計算機科學系和空間研究所YolandaGil教授,陳維江、馮登國、郭光燦、孫凝暉、王懷民等多位院士,及眾多深具業(yè)內(nèi)影響力的專家。今年的技術(shù)論壇多達111個,無論從數(shù)量、質(zhì)量還是覆蓋,都開創(chuàng)了歷史之最,將為參會者帶來學術(shù)、技術(shù)、產(chǎn)業(yè)、教育、科普等方面的全方位體驗。大會期間還將首次舉辦“會員之夜”大型主題狂歡活動,讓參會者暢快交流。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。