0
本文作者: 王玥 | 2022-07-11 09:56 |
作者 | 王玥
“我很慶幸能陪在你身邊,通過你的目光看世界(I'm so happy I get to be next to you and look at the world through your eyes.)。"
這是影片《Her》中的一句臺(tái)詞,由AI語音助手Samantha對(duì)男主角說出。這句話對(duì)于迷失在鋼鐵森林中,感到失落而無力的男主角來說是莫大的安慰。
Samantha是一款幾乎萬能的自我學(xué)習(xí)型操作系統(tǒng)。她能幫助男主角篩選出最優(yōu)秀的信件,發(fā)給他喜歡的出版社出版;她可以根據(jù)男主的需要,瞬間漫游整個(gè)人類知識(shí)庫,搜索出最適合他的應(yīng)對(duì)方案;她最強(qiáng)的功能還要數(shù)情感陪伴,男主的一切困惑和不悅都能在談話中被她以溫情化解……
作為國內(nèi)NLP領(lǐng)域的前沿學(xué)者,清華大學(xué)計(jì)算機(jī)教授黃民烈將NLP技術(shù)應(yīng)用到心理健康賽道,主導(dǎo)研發(fā)AI情緒對(duì)話機(jī)器人Emohaa。在采訪黃民烈教授時(shí),他便提到了這部2013年上映的影片《Her》,言談中表現(xiàn)出了對(duì)這部科幻影片的欣賞,或者說,期待。作為研發(fā)AI對(duì)話系統(tǒng)的同行,他期待著《Her》中那樣善解人意的AI對(duì)話系統(tǒng)真的出現(xiàn)在現(xiàn)實(shí)當(dāng)中,實(shí)現(xiàn)行業(yè)的飛躍進(jìn)步。
這不禁令人發(fā)問:如果要使AI對(duì)話系統(tǒng)像Samantha一樣執(zhí)行復(fù)雜情感任務(wù),做到安撫情緒,療愈人心,其難度有多高?這個(gè)難度如何量化?怎樣衡量一個(gè)AI對(duì)話系統(tǒng)是否達(dá)到Samantha的級(jí)別?
這并不是一個(gè)不切實(shí)際的問題。事實(shí)上,在如今AI對(duì)話系統(tǒng)呈爆炸式增長的態(tài)勢(shì)下,“小度”、“小愛”、谷歌對(duì)話機(jī)器人“Meena”,F(xiàn)acebook聊天機(jī)器人“Blender”等等對(duì)話產(chǎn)品層出不窮。然而,當(dāng)前AI對(duì)話系統(tǒng)標(biāo)準(zhǔn)缺失,造成其在應(yīng)用中呈現(xiàn)出水平參差不齊、評(píng)價(jià)體系不一的現(xiàn)狀,導(dǎo)致了業(yè)界因認(rèn)知不統(tǒng)一而對(duì)人工智能的交互水平出現(xiàn)誤解,也引起了社會(huì)上關(guān)于意識(shí)、倫理、道德等方面的廣泛討論。
也有從事AI對(duì)話系統(tǒng)開發(fā)的科學(xué)家提出,自己時(shí)常感到難以評(píng)判所開發(fā)AI對(duì)話系統(tǒng)的水平。科學(xué)家認(rèn)為,業(yè)界急需一個(gè)針對(duì)AI對(duì)話系統(tǒng)水平進(jìn)行分級(jí)的標(biāo)準(zhǔn)。在制定了分級(jí)標(biāo)準(zhǔn)后,AI對(duì)話系統(tǒng)能力水平的衡量才將有據(jù)可依。
因此,為了更好地評(píng)估AI對(duì)話系統(tǒng)的能力水平,黃民烈教授聯(lián)合學(xué)界和業(yè)界科研機(jī)構(gòu)參照自動(dòng)駕駛中從L0到L5的分級(jí)概念,制定了全球首個(gè)《AI對(duì)話系統(tǒng)分級(jí)定義》(以下簡(jiǎn)稱《分級(jí)定義》),并于6月28日正式發(fā)布。
《分級(jí)定義》的出現(xiàn),或?qū)⑼苿?dòng)AI對(duì)話系統(tǒng)在虛擬個(gè)人助理、智能家居、智能車載語音、情感陪護(hù)和心理健康等等領(lǐng)域的應(yīng)用,并將加速下一代AI對(duì)話系統(tǒng)的研發(fā)與落地應(yīng)用,對(duì)學(xué)術(shù)界與工業(yè)界研究語音語言對(duì)話系統(tǒng)均有重要的參考意義。
圍繞《分級(jí)定義》,AI科技評(píng)論與黃民烈教授進(jìn)行了一次對(duì)話,以下是對(duì)話內(nèi)容:
AI科技評(píng)論:請(qǐng)問是什么讓您產(chǎn)生了要對(duì)AI對(duì)話系統(tǒng)進(jìn)行分級(jí)的想法?
黃民烈:目前我們對(duì)于對(duì)話系統(tǒng)的評(píng)價(jià)存在一個(gè)問題:如今的技術(shù)路線和架構(gòu)百花齊放,互相之間難以比較。例如,我想要拿一個(gè)智能音箱和一個(gè)聊天機(jī)器人比較,但無法比較其對(duì)話能力,因?yàn)閷?duì)話系統(tǒng)的水平參差不齊,缺少統(tǒng)一的評(píng)價(jià)體系,缺少一個(gè)明確的能力界定標(biāo)準(zhǔn)。
我們?cè)谌蝿?wù)型對(duì)話系統(tǒng)里有一定評(píng)價(jià)指標(biāo),在閑聊型對(duì)話系統(tǒng)里有一定評(píng)價(jià)指標(biāo),知識(shí)型對(duì)話系統(tǒng)里也有一定評(píng)價(jià)指標(biāo),指標(biāo)之間到底應(yīng)該怎樣去統(tǒng)一,這就是《分級(jí)定義》主要考慮的問題。所以我們借鑒了自動(dòng)駕駛從L0到L5的分級(jí)定義,也用L0-L5來對(duì)AI對(duì)話系統(tǒng)進(jìn)行分級(jí)。
AI科技評(píng)論:請(qǐng)您為我們講解一下AI對(duì)話系統(tǒng)分級(jí)的具體定義。
黃民烈:自動(dòng)駕駛的分級(jí)從L0到L5分為六級(jí),其中L0是指完全人工駕駛,L5是完全自動(dòng)駕駛,車輛接管一切。而L1-L4是在某些特定條件下實(shí)現(xiàn)自動(dòng)駕駛,自動(dòng)駕駛的分級(jí)主要涉及人與車輛掌管駕駛的比例,定義比較簡(jiǎn)單。但是對(duì)話系統(tǒng)就相當(dāng)復(fù)雜了,其技術(shù)路線、技術(shù)架構(gòu)眾多,任務(wù)多,評(píng)價(jià)指標(biāo)也非常多,我們經(jīng)過討論,認(rèn)為最終需要滿足五個(gè)基本原則:
第一,僅僅關(guān)注完全由機(jī)器主導(dǎo)的對(duì)話系統(tǒng),人機(jī)混合的對(duì)話系統(tǒng)不在考慮范圍內(nèi);第二,從系統(tǒng)表現(xiàn)的能力和用戶可以感知的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式;第三,各分級(jí)定義對(duì)應(yīng)的能力水平需要可觀察、可測(cè)試、可度量;第四,不區(qū)分助理類、閑聊類、知識(shí)對(duì)話類等任務(wù)類型,均以“場(chǎng)景”進(jìn)行表述;第五,我們希望衡量對(duì)話系統(tǒng)的能力水平可以提供對(duì)話系統(tǒng)的研究方向的建議和實(shí)際應(yīng)用的參考。
在這五個(gè)原則上,我們給出了AI對(duì)話系統(tǒng)分級(jí)的定義:
L0實(shí)際對(duì)話由人給出,系統(tǒng)完全沒有自動(dòng)對(duì)話能力,或者說在任意單一的場(chǎng)景里面,系統(tǒng)無法給出較高質(zhì)量的對(duì)話。
而L1能夠完成單一場(chǎng)景的較高質(zhì)量的對(duì)話,但是沒有辦法處理場(chǎng)景之間的上下文依賴。舉個(gè)例子,比如我要出差,訂好了去南京的機(jī)票,又需要訂賓館。既然去南京出差,肯定訂在南京的某個(gè)賓館。這就是有場(chǎng)景之間的上下文依賴,這種訂飛機(jī)票和訂賓館之間形成的上下文的依賴,L1無法處理。
而L2是在L1的基礎(chǔ)上能夠同時(shí)完成多個(gè)場(chǎng)景較高質(zhì)量的對(duì)話,具有跨場(chǎng)景的上下文依賴和自然切換的能力。我剛才講到了訂機(jī)票又訂賓館,還要問問那邊的天氣怎么樣,有什么旅游景點(diǎn),這就是自然地在不同任務(wù)和不同場(chǎng)景之間靈活切換。這種能力在L2上非常關(guān)鍵,但是L2沒有辦法完成新場(chǎng)景的較高質(zhì)量的對(duì)話。
L3在L2的基礎(chǔ)上能夠針對(duì)大量場(chǎng)景開展高質(zhì)量的對(duì)話,在新的場(chǎng)景上也具有較高質(zhì)量的對(duì)話能力。我在此處提到了一個(gè)“大量場(chǎng)景”,也許你會(huì)問“大量”是多少?十個(gè)算不算、二十個(gè)算不算、三十個(gè)呢?為了標(biāo)準(zhǔn)和定義能有更廣泛的結(jié)合度,我們并沒有給出數(shù)量上的具體定義,但是在沒有見過的新場(chǎng)景下是否有較高質(zhì)量對(duì)話是很關(guān)鍵的能力。
L4是指在新場(chǎng)景上具有較高質(zhì)量的對(duì)話能力,并且在多輪交互里面擬人化(指人設(shè)、人格、情感觀點(diǎn)等維度的一致性)的程度較高。這就好比我們跟一個(gè)人聊天,對(duì)方不可能一會(huì)是男的,一會(huì)是女的,不可能一會(huì)兒在清華上學(xué),一會(huì)兒在北大上學(xué)——人都有自己固定的人設(shè)信息,這種人設(shè)信息目前在對(duì)話系統(tǒng)里面處理還是非常之難。目前我們能做到讓對(duì)話系統(tǒng)一定程度體現(xiàn)人設(shè),但是離真正類人的水平還差得比較遠(yuǎn)。
L5在L4的基礎(chǔ)上更上一層樓,L5在多輪交互中擬人化程度很高,能夠在開放場(chǎng)景交互中主動(dòng)學(xué)習(xí)和持續(xù)學(xué)習(xí),具有多模態(tài)感知與表達(dá)能力。這就好比我們跟小孩說,你這么做不對(duì),小孩就學(xué)會(huì)了。未來我們希望L5的對(duì)話系統(tǒng)能夠做到我們跟它講什么是對(duì)的、什么是不對(duì)的,它就能夠記住和學(xué)會(huì)。在交互過程中,我們同時(shí)希望L5對(duì)話系統(tǒng)有多模態(tài)的感知和表達(dá)能力,能真正進(jìn)入到元宇宙和各種虛擬人的場(chǎng)景里面,能夠真正地做表情和動(dòng)作,能夠理解對(duì)方的表情、動(dòng)作和情緒等等。
以上就是《AI對(duì)話系統(tǒng)分級(jí)定義》中從L0到L5的基本定義。
AI科技評(píng)論:您剛才提到的“較高質(zhì)量”和“高質(zhì)量”是如何定義的呢?
黃民烈:何謂高質(zhì)量和較高質(zhì)量,其實(shí)我們有一整套評(píng)判標(biāo)準(zhǔn)。滿分為10分,高質(zhì)量是指在相關(guān)性、信息量、自然度三個(gè)維度上的分?jǐn)?shù)可以達(dá)到8-10分,較高質(zhì)量就是6-8分,低質(zhì)量就是小于6分。
這三個(gè)維度是什么意思呢?相關(guān)性是指回復(fù)的內(nèi)容跟前文適度匹配;信息量是指回復(fù)提供足夠必要的信息量,像“我不知道”,“好的”這種回復(fù)就是沒有任何信息量的;自然度是指與人相比的自然度,對(duì)話系統(tǒng)的語法是否通順,是否存在常識(shí)錯(cuò)誤等。
而這個(gè)分?jǐn)?shù)怎么去測(cè)呢?可以通過一定數(shù)量的測(cè)試者和這個(gè)對(duì)話系統(tǒng)進(jìn)行充分的對(duì)話交互,由測(cè)試者從三個(gè)維度對(duì)對(duì)話系統(tǒng)進(jìn)行主觀打分,很像亞馬遜Alexa Prize競(jìng)賽評(píng)價(jià)的方法。
注:亞馬遜Alexa Prize競(jìng)賽的目的是提供一個(gè)標(biāo)準(zhǔn)的開發(fā)環(huán)境和測(cè)試框架來推動(dòng)對(duì)話機(jī)器人綜合能力的進(jìn)展,其獎(jiǎng)金高達(dá)350萬美金。根據(jù)該大賽的評(píng)分系統(tǒng),在2019年、2020年、2022年這三年中,該競(jìng)賽評(píng)出最好的系統(tǒng)平均分在3.1分到3.6分之間,是在滿足連貫性、上下文理解、流暢回應(yīng)三個(gè)條件下,能夠跟人聊上10-14分鐘的水平。
AI科技評(píng)論:定義AI對(duì)話系統(tǒng)分級(jí)有何意義呢?
黃民烈:第一個(gè)心理治療機(jī)器人Eliza出現(xiàn)于1966年,截至目前,AI對(duì)話系統(tǒng)已經(jīng)發(fā)展了快60年。在這60年中,無論是對(duì)話系統(tǒng)的應(yīng)用,還是算法模型,都取得了巨大的進(jìn)展。但我們也會(huì)發(fā)現(xiàn)工業(yè)上的實(shí)踐,民眾的認(rèn)知都存在各種各樣的不一致甚至分歧。而且近年來,AI對(duì)話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,在開放話題上展現(xiàn)出了驚人的對(duì)話能力,對(duì)話能力也產(chǎn)生了革命性變化。
這種革命性的變化給我們帶來很多新的問題,如:AI對(duì)話系統(tǒng)會(huì)有人格嗎?會(huì)有情感嗎?AI對(duì)話系統(tǒng)是否能成為虛擬伴侶?等等,而這些問題又延伸到進(jìn)一步的社會(huì)認(rèn)知和倫理道德方面的討論。
比如說,6月12號(hào)有一則新聞,一位谷歌AI倫理研究員Blake Lemoine認(rèn)為LaMDA語言模型具有人格,因?yàn)樵谂cLaMDA聊天的過程中,LaMDA透露出它認(rèn)為自己擁有意識(shí)和感覺,它還說「我意識(shí)到我自己的存在,我渴望更了解這個(gè)世界,而且有時(shí)會(huì)感到快樂或悲傷?!咕W(wǎng)絡(luò)上對(duì)此一時(shí)眾說紛紜,都在討論AI是否擁有了人格和意識(shí)。
再說說元宇宙,元宇宙希望能夠把真實(shí)世界復(fù)刻到網(wǎng)絡(luò)里面,讓真實(shí)世界的人們?cè)诰W(wǎng)絡(luò)世界里互動(dòng)起來。而AI對(duì)話系統(tǒng)在元宇宙內(nèi)有極大用處,比如AI導(dǎo)購員可根據(jù)用戶偏好提供獨(dú)特建議等等。這就要求我們未來要將對(duì)話交互能力做到極佳,否則這種人機(jī)交流就不自然,沒有靈魂,我們想要達(dá)到的元宇宙也就不成立。
所以說,基于可以預(yù)見的AI對(duì)話系統(tǒng)未來的蓬勃發(fā)展,以及這種發(fā)展可能對(duì)人類帶來的巨大機(jī)遇和許多困惑,我們?cè)谶@個(gè)時(shí)間點(diǎn)上探索分級(jí)定義的意義非常重大。
AI科技評(píng)論:在電影《Her》中由于Samantha能夠處理復(fù)雜情感任務(wù),男主角愛上了她且陷入了情感危機(jī),那么同樣達(dá)到了L4-L5的AI對(duì)話系統(tǒng)是否可能造成這樣的問題?這是否涉及到倫理問題?
黃民烈:是的,隨著對(duì)話系統(tǒng)的發(fā)展,可能導(dǎo)致非常突出的倫理問題,因?yàn)檫@挑戰(zhàn)了已有的倫理秩序和已有的社會(huì)認(rèn)知。所以在制定《分級(jí)定義》時(shí),我們團(tuán)隊(duì)邀請(qǐng)了北京師范大學(xué)新聞傳播學(xué)院院長張洪忠教授。在我們的后續(xù)工作中,張教授會(huì)第一時(shí)間向管理部門及社科學(xué)界進(jìn)行推廣,讓相關(guān)部門和學(xué)界了解后,直觀地從技術(shù)邏輯中幫助我們制定相對(duì)應(yīng)的政策法規(guī)倫理問題,這樣非常有針對(duì)性。
AI科技評(píng)論:目前國內(nèi)市場(chǎng)上已有的AI對(duì)話系統(tǒng)產(chǎn)品在《分級(jí)定義》中屬于什么水平?
黃民烈:小米技術(shù)委員會(huì)主任、AI實(shí)驗(yàn)室主任王斌教授和我們一起合作制定了《分級(jí)定義》。他目前負(fù)責(zé)主導(dǎo)開發(fā)小米的智能生活助理“小愛同學(xué)”的智能問答和閑聊功能,那我們就拿小愛同學(xué)舉個(gè)例子。我認(rèn)為小愛同學(xué)具備一定的跨場(chǎng)景的能力,其水平應(yīng)該在在L2-L3之間?,F(xiàn)在國內(nèi)業(yè)界產(chǎn)品的水平一般都在L2-L3這個(gè)范圍,好一些的處于L3。
AI科技評(píng)論:那么國外的AI對(duì)話系統(tǒng)產(chǎn)品大致屬于哪個(gè)水平呢?
黃民烈:目前就產(chǎn)品來說,國內(nèi)外沒有顯著的差別。而且值得注意的是,我們做中文AI對(duì)話系統(tǒng)比英文更難一點(diǎn),因?yàn)橛⑽膬?nèi)容開源的文化和理念更好,且英文更容易獲取到高質(zhì)量的數(shù)據(jù);另一方面說來,中文的語言特點(diǎn)比英文更難一點(diǎn)。
AI科技評(píng)論:從大多數(shù)產(chǎn)品目前的狀態(tài)升級(jí)到L4-L5的技術(shù)難點(diǎn)是什么?
黃民烈:第一,要有記憶的能力;第二,要有聯(lián)想和推理的能力,以及自學(xué)習(xí)的能力;第三,L4-L5的關(guān)鍵點(diǎn)是多模態(tài)。AI對(duì)話系統(tǒng)若想要在元宇宙里適用,那AI對(duì)話系統(tǒng)對(duì)于表情的識(shí)別、語音的理解,從語音上感受用戶的情緒等能力就很重要,是否能做高表現(xiàn)力的語音合成,以及動(dòng)作和表情細(xì)粒度的表達(dá),也都是很重要的難點(diǎn)。
AI科技評(píng)論:《分級(jí)定義》這種標(biāo)準(zhǔn)通過民間制定就可以推行嗎?還是說需要通過國家的審批,再由官方制定相關(guān)標(biāo)準(zhǔn)?
黃民烈:《分級(jí)定義》不是一個(gè)標(biāo)準(zhǔn)。首先我們是想從學(xué)術(shù)角度去討論這個(gè)問題,希望促進(jìn)社會(huì)公眾的認(rèn)知,同時(shí)希望能給工業(yè)界系統(tǒng)開發(fā)以及研究方向提供一些系統(tǒng)性的思考?,F(xiàn)階段我們不能說《分級(jí)定義》已經(jīng)是一個(gè)固定標(biāo)準(zhǔn),它目前還只是一個(gè)建議或者一個(gè)指南,而未來我們要做更多的工作,把它推廣成大家認(rèn)可的標(biāo)準(zhǔn)。這是一個(gè)長期的過程,《分級(jí)定義》的發(fā)布只是AI對(duì)話系統(tǒng)走向規(guī)范化、系統(tǒng)化發(fā)展的第一步。
AI科技評(píng)論:那如您所說,需要什么樣的工作才能讓《AI對(duì)話系統(tǒng)分級(jí)定義》獲得廣泛的認(rèn)可和應(yīng)用呢?
黃民烈:后續(xù)我們計(jì)劃在CCF(中國計(jì)算機(jī)學(xué)會(huì))的支持下,聯(lián)合相關(guān)研究機(jī)構(gòu)和研究者們開展白皮書的編撰,并聚焦AI對(duì)話系統(tǒng)的發(fā)展歷程,詳細(xì)闡釋《分級(jí)定義》的制定目的和標(biāo)準(zhǔn)。
另外,我們希望推動(dòng)一個(gè)類似亞馬遜Alexa Prize競(jìng)賽的大賽,這是一個(gè)需要資金支持的遠(yuǎn)期目標(biāo)。我們希望能夠做出一個(gè)統(tǒng)一的開發(fā)環(huán)境,統(tǒng)一的數(shù)據(jù)集,統(tǒng)一的測(cè)試框架,真正比較不同的對(duì)話系統(tǒng)。我知道百度有類似的想法,但是還不夠開放。我們未來會(huì)再統(tǒng)一各方的力量,目的是希望能夠促進(jìn)對(duì)話系統(tǒng)研究方向的進(jìn)展,同時(shí)也促進(jìn)工業(yè)落地,在實(shí)踐應(yīng)用上取得一些新的發(fā)展。
科大訊飛AI研究院副院長陳志剛,京東集團(tuán)副總裁、IEEE Fellow何曉冬,清華大學(xué)長聘副教授黃民烈,阿里達(dá)摩院總監(jiān)、資深算法專家李永彬,華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群,華為諾亞方舟實(shí)驗(yàn)室高級(jí)研究員糜飛,百度主任架構(gòu)師牛正雨,騰訊AI Lab總監(jiān)史樹明,中國人民大學(xué)副教授宋睿華,阿里達(dá)摩院總監(jiān)孫健,小米技術(shù)委員會(huì)主席、AI實(shí)驗(yàn)室主任王斌,百度技術(shù)委員會(huì)主席吳華,美團(tuán)自然語言處理中心總監(jiān)武威,中國人民大學(xué)副教授嚴(yán)睿,中國科學(xué)院深圳先進(jìn)技術(shù)研究院副研究員楊敏,OPPO高級(jí)技術(shù)總監(jiān)楊振宇,哥倫比亞大學(xué)助理教授俞舟,北京師范大學(xué)新聞傳播學(xué)院院長張洪忠,哈爾濱工業(yè)大學(xué)副教授張偉男,北京聆心智能總監(jiān)鄭銀河,三星電子中國研究院語言技術(shù)部技術(shù)總監(jiān)朱璇。
雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。