丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

亞馬遜 Alexa Prize 比賽冠軍團(tuán)隊(duì)專訪:聊天機(jī)器人的突破與創(chuàng)新

本文作者: 汪思穎 編輯:郭奕欣 2018-01-15 10:35
導(dǎo)語(yǔ):以用戶為中心,以內(nèi)容為導(dǎo)向

在 2017 年底結(jié)束的第一屆亞馬遜 Alexa Prize 比賽上,由華盛頓大學(xué)博士生方昊擔(dān)任領(lǐng)隊(duì)的 Sounding Board 團(tuán)隊(duì)在全球上百支隊(duì)伍中突出重圍,一舉奪得冠軍。

亞馬遜 Alexa Prize 比賽面向全球各地的學(xué)生,旨在創(chuàng)造一個(gè)能與人進(jìn)行自然對(duì)話和互動(dòng)的社交對(duì)話系統(tǒng),為用戶提供新鮮、有趣的對(duì)話體驗(yàn)。比賽分為初賽和決賽兩個(gè)階段,在初賽階段,選手需要?jiǎng)?chuàng)造出一個(gè)社交對(duì)話系統(tǒng),而在決賽階段,他們會(huì)對(duì)系統(tǒng)進(jìn)行不斷改進(jìn)。

據(jù)主辦方亞馬遜介紹,「通過(guò)比賽中學(xué)生們的創(chuàng)新工作,Alexa 的客戶將會(huì)有全新的、有趣的對(duì)話體驗(yàn),而來(lái)自 Alexa 用戶的大量互動(dòng)和反饋將幫助學(xué)生們比以前更快地改進(jìn)他們的算法?!?/p>

亞馬遜為優(yōu)勝團(tuán)隊(duì)提供的獎(jiǎng)金高達(dá) 50 萬(wàn)美元,如果哪個(gè)團(tuán)隊(duì)設(shè)計(jì)出一款可以與人持續(xù)聊天達(dá)到 20 分鐘的對(duì)話系統(tǒng),那么這個(gè)團(tuán)隊(duì)將獲得高達(dá) 100 萬(wàn)美元的 Grand Prize 獎(jiǎng)。

在最后的決賽中,Sounding Board (https://sounding-board.github.io/)團(tuán)隊(duì)的平均對(duì)話持續(xù)時(shí)間為 10 分 22 秒,遠(yuǎn)超第二名的 3 分 55 秒。雷鋒網(wǎng) AI 科技評(píng)論第一時(shí)間聯(lián)系到團(tuán)隊(duì)成員——華盛頓大學(xué)的在讀博士生方昊和程浩,針對(duì)此次比賽的個(gè)中細(xì)節(jié)對(duì)其進(jìn)行采訪。

據(jù)方昊介紹,初次接觸這次比賽,是在華盛頓大學(xué)的 Mailing List 上看到有教授在進(jìn)行推廣。參加這次比賽的原因也很簡(jiǎn)單,「我看到之后,覺(jué)得看起來(lái)很有意思,于是和程浩商量了一些想法,再向?qū)熥稍兞艘恍┮庖?jiàn),決定參加這次比賽?!?/p>

「Sounding Board 是一個(gè) 5 人團(tuán)隊(duì),除了我和程浩,其他 3 名成員分別是 Elizabeth Clark,Ari Holtzman,Maarten Sap,他們也都是華盛頓大學(xué)的博士生?!狗疥粚?duì) AI 科技評(píng)論表示,「我們?cè)诒荣愔械闹饕笇?dǎo)老師是 Mari Ostendorf,她同時(shí)也是我和程浩的博士生導(dǎo)師。此外,在比賽過(guò)程中,Yejin Choi 和 Noah Smith 作為其他三人的博士生導(dǎo)師,也為團(tuán)隊(duì)提供了很多指導(dǎo)意見(jiàn)?!?/p>

亞馬遜 Alexa Prize 比賽冠軍團(tuán)隊(duì)專訪:聊天機(jī)器人的突破與創(chuàng)新

上圖從左至右:方昊,程浩,Ari,Mari,Maarten,Elizabeth,Yejin

雷鋒網(wǎng) AI 科技評(píng)論了解到,Sounding Board 團(tuán)隊(duì)中每個(gè)人的研究都有不同的側(cè)重點(diǎn),涵蓋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人機(jī)協(xié)作、心理語(yǔ)言學(xué),不過(guò)有一個(gè)共同點(diǎn),大家都共同關(guān)注自然語(yǔ)言處理。

那么,集合了這么多不同背景的博士生團(tuán)隊(duì),在此次比賽中的策略是什么?為了打造這樣一個(gè)開(kāi)放式的聊天機(jī)器人,他們的方法又有哪些?以下為雷鋒網(wǎng) AI 科技評(píng)論與 Sounding Board 團(tuán)隊(duì)的對(duì)話詳情,相信大家可以從中一窺究竟:

亞馬遜 Alexa Prize 比賽冠軍團(tuán)隊(duì)專訪:聊天機(jī)器人的突破與創(chuàng)新

圖:Sounding Board 對(duì)話系統(tǒng)

1、比賽從初賽到結(jié)束持續(xù)了多久?在初賽和復(fù)賽過(guò)程中,你們整體的時(shí)間點(diǎn)規(guī)劃如何?

比賽持續(xù)了大概一年。因?yàn)槲覀冴?duì)伍沒(méi)有任何已有的對(duì)話系統(tǒng),所以我們的規(guī)劃是一邊實(shí)現(xiàn)一個(gè)可以上線的對(duì)話系統(tǒng),一邊嘗試各種各樣的新功能。

2、在這次的比賽中,你們主要面臨的難點(diǎn)有哪些?你們的系統(tǒng)主要由自然語(yǔ)言理解(NLU)、對(duì)話管理(DM)和自然語(yǔ)言生成(NLG)這三個(gè)模塊組成,在構(gòu)建這三個(gè)模塊的過(guò)程中,分別有哪些挑戰(zhàn)?

一個(gè)很大的難點(diǎn)在于之前基本上沒(méi)有任何人機(jī)社交對(duì)話的數(shù)據(jù),很多已有數(shù)據(jù)集都是任務(wù)導(dǎo)向的或者純閑聊式的。所以我們需要很謹(jǐn)慎地構(gòu)建自己的數(shù)據(jù)集和模型。

  • 在自然語(yǔ)言理解方面,主要的挑戰(zhàn)在于系統(tǒng)需要從多方面理解用戶,包括用戶的目的(intent)、問(wèn)題、命令、情感、提到的話題等,同時(shí)我們還需要考慮到語(yǔ)音交互和文本交互的不同。

  • 在對(duì)話管理方面,主要的挑戰(zhàn)在于設(shè)計(jì)最優(yōu)的策略來(lái)響應(yīng)用戶的需求并且吸引用戶與系統(tǒng)進(jìn)行更多的有意思的對(duì)話。

  • 而自然語(yǔ)言生成方面的挑戰(zhàn)在于如何使生成的回復(fù)更加人性化,比如我們經(jīng)常需要明示或者暗示用戶我們聽(tīng)到了用戶的問(wèn)題、命令,或者他們表達(dá)的情緒,而不是生硬的說(shuō)出一個(gè)問(wèn)題的答案。

除了以上提到的三個(gè)模塊,在我們的系統(tǒng)中,還有一個(gè)至關(guān)重要的模塊--內(nèi)容管理模塊。

Sounding Board 的一個(gè)主要策略是進(jìn)行以內(nèi)容為導(dǎo)向的對(duì)話,所以我們的內(nèi)容管理模塊會(huì)在網(wǎng)上爬取大量有意思的,適合語(yǔ)音交互的內(nèi)容,然后選取相關(guān)的內(nèi)容來(lái)進(jìn)行對(duì)話。這里的挑戰(zhàn)在于我們需要排除掉很多爭(zhēng)議性的,歧視性的,或者不適合家庭對(duì)話的內(nèi)容。

3、在此次比賽中,亞馬遜為你們提供的數(shù)據(jù)有哪些?除了亞馬遜提供的數(shù)據(jù),你們提到一開(kāi)始嘗試過(guò)電影和研討會(huì)上的文本,但它們和實(shí)際用戶有很大的差別,你們是怎么處理的呢?在決賽中又引入了其他數(shù)據(jù)嗎?

在此次比賽中,亞馬遜為我們提供免費(fèi)的 AWS 資源和一些云計(jì)算方面的技術(shù)支持,此外,在數(shù)據(jù)方面亞馬遜還提供華盛頓郵報(bào)的 API。

我們發(fā)現(xiàn)很多已有的對(duì)話文本數(shù)據(jù)集和實(shí)際用戶的交互有非常大的區(qū)別,所以我們轉(zhuǎn)而構(gòu)建自己的數(shù)據(jù)集。這里就涉及到前面提到的內(nèi)容管理模塊,我們?cè)诰W(wǎng)上爬取各種適合對(duì)話的內(nèi)容之后,進(jìn)而構(gòu)建自己的知識(shí)圖譜(Knowledge Graph)。

我們?cè)谑褂酶鞣N數(shù)據(jù)的時(shí)候非常謹(jǐn)慎,對(duì)爬取的內(nèi)容會(huì)進(jìn)行很多處理,例如風(fēng)格轉(zhuǎn)換以及簡(jiǎn)化,從而使得它們適合于語(yǔ)音交互。并且我們會(huì)通過(guò)實(shí)時(shí)的用戶對(duì)話的反饋來(lái)改進(jìn)我們的內(nèi)容管理模塊。

在決賽階段中,一個(gè)很重要的工作是由程浩完成的——根據(jù)網(wǎng)上爬取的關(guān)于電影的知識(shí)圖譜來(lái)進(jìn)行一小段比較有深度的對(duì)話。同時(shí),在決賽階段,我們也改進(jìn)了內(nèi)容管理模塊,包括擴(kuò)展內(nèi)容爬取范圍,部署新的內(nèi)容處理模型。

4、聊天機(jī)器人分為開(kāi)放式和特定任務(wù)式,你們這次構(gòu)造的聊天機(jī)器人需要既能同時(shí)滿足用戶的閑聊需求(開(kāi)放式),又能解決用戶在特定領(lǐng)域的專業(yè)回答(特定任務(wù)式)嗎?

Alexa Prize 的目標(biāo)是開(kāi)發(fā)一個(gè)社交對(duì)話系統(tǒng),從而使得機(jī)器人可以與用戶進(jìn)行連貫的、吸引人的對(duì)話,比較偏向于開(kāi)放式的對(duì)話。

Sounding Board 的策略是進(jìn)行以用戶為中心,以內(nèi)容為導(dǎo)向的對(duì)話。

  • 以用戶為中心主要表現(xiàn)在我們會(huì)盡可能的響應(yīng)用戶的命令或者問(wèn)題,同時(shí) Sounding Board 還會(huì)通過(guò)一些問(wèn)題來(lái)了解用戶的性格,從而更好的規(guī)劃對(duì)話。

  • 以內(nèi)容為導(dǎo)向表現(xiàn)在系統(tǒng)會(huì)不斷通過(guò)拋出新的內(nèi)容來(lái)吸引用戶將對(duì)話進(jìn)行下去。比如當(dāng)用戶提了一個(gè)問(wèn)題的時(shí)候,我們不僅僅會(huì)給出這個(gè)問(wèn)題的答案,還會(huì)嘗試推薦和這個(gè)問(wèn)題相關(guān)的其他內(nèi)容。

5、為了構(gòu)造這種能進(jìn)行開(kāi)放式話題的聊天機(jī)器人,你們是怎么做的呢?

在開(kāi)放式話題上,我們需要涵蓋很廣的內(nèi)容,并且需要區(qū)分領(lǐng)域(domain)和話題(topic)。運(yùn)動(dòng)、政治、娛樂(lè)、技術(shù)都屬于「領(lǐng)域」,此外還要涵蓋各種各樣的話題(比如世界杯比賽,奧斯卡頒獎(jiǎng)典禮等)。

我們使用了一些文本分析模型來(lái)對(duì)爬取的內(nèi)容進(jìn)行索引,并把他們組建成知識(shí)圖譜。同時(shí),當(dāng)用戶提出一些話題但是知識(shí)圖譜中暫時(shí)沒(méi)有相關(guān)的內(nèi)容時(shí),Sounding Board 會(huì)嘗試推薦相關(guān)的其他話題來(lái)吸引用戶。

總的來(lái)說(shuō),為了進(jìn)行開(kāi)放式的社交對(duì)話,Sounding Board 的對(duì)話管理模塊(DM)會(huì)首要響應(yīng)用戶的需求,同時(shí)將內(nèi)容推薦作為潛在任務(wù)來(lái)推進(jìn)對(duì)話的進(jìn)行。

6、由于用戶具有多樣性,為了讓產(chǎn)生的回答更符合用戶的喜好,這其中又面臨哪些挑戰(zhàn)?你們是如何處理的?

Sounding Board 的內(nèi)容管理模塊會(huì)盡可能的剔除掉不適合對(duì)話的內(nèi)容,保留有意思的內(nèi)容。同時(shí)對(duì)話管理模塊會(huì)根據(jù)對(duì)話的歷史以及內(nèi)容的屬性來(lái)選取最優(yōu)的策略進(jìn)行對(duì)話。

另外,Sounding Board 有一個(gè)用戶性格分析模塊,這個(gè)模塊會(huì)通過(guò)一些心理學(xué)的問(wèn)題來(lái)了解用戶的性格從而更好地進(jìn)行內(nèi)容推薦。

7、除了以上提到的功能:能和用戶在多個(gè)話題上交談,產(chǎn)生出吸引用戶興趣的回答,這個(gè)系統(tǒng)還需要能滿足其他什么功能,對(duì)于對(duì)話時(shí)長(zhǎng)、對(duì)話輪數(shù)是否有要求?是否需要設(shè)計(jì)出一個(gè)具備「情感」的機(jī)器人?

主辦方對(duì)于對(duì)話時(shí)長(zhǎng)和輪數(shù)沒(méi)有特別的要求。Grand Prize 獎(jiǎng)要求系統(tǒng)能進(jìn)行 20 分鐘的對(duì)話,今年還沒(méi)有隊(duì)伍達(dá)到這個(gè)目標(biāo)。

由于這個(gè)系統(tǒng)是面向客戶的,一個(gè)很重要的要求是不能使用戶產(chǎn)生不適感,比如不能使用帶有咒罵或歧視性的語(yǔ)言,也不能產(chǎn)生對(duì)小孩或者宗教不友好的話題。

機(jī)器人的「情感」是一個(gè)開(kāi)放的問(wèn)題,大家普遍會(huì)為機(jī)器人設(shè)計(jì)一個(gè)背景故事,從而使得它能回答用戶的一些特定問(wèn)題(比如它最喜歡的顏色、歌曲等)。

8、你們的工作結(jié)合了以前的哪些研究,具體做了什么優(yōu)化和改進(jìn)?目前深度學(xué)習(xí)的方法應(yīng)用很廣泛,你們?cè)诒荣愔惺欠裼杏玫缴疃葘W(xué)習(xí)的方法?

我們的工作結(jié)合了我們以前關(guān)于社交媒體、數(shù)據(jù)挖掘、語(yǔ)音處理、心理語(yǔ)言學(xué)的研究,其中一個(gè)主要的工作在于把這些研究應(yīng)用到對(duì)話系統(tǒng)上。

在沒(méi)有足夠并且合適的數(shù)據(jù)前,深度學(xué)習(xí)的優(yōu)勢(shì)很難被利用。我們?cè)诰€下部署了一些深度學(xué)習(xí)的模型,但是由于比賽的時(shí)間限制,我們還沒(méi)有將它們部署到最終系統(tǒng)里面。Sounding Board 采用了模塊化的設(shè)計(jì),通過(guò)這次比賽,我們得到很多寶貴的交互數(shù)據(jù),我們正在探索和開(kāi)發(fā)新的模型來(lái)改進(jìn)現(xiàn)有的各個(gè)系統(tǒng)模塊。

9、你們?cè)跊Q賽上平均得分是 3.17 分,排名第一,這個(gè)分?jǐn)?shù)是依據(jù)哪些指標(biāo)來(lái)評(píng)判的呢?

在決賽階段,亞馬遜邀請(qǐng)了 3 位裁判和 3 位交互者(interactor)。每位交互者會(huì)和每個(gè)系統(tǒng)進(jìn)行 2 次對(duì)話,但是他們不知道系統(tǒng)是來(lái)自哪個(gè)隊(duì)伍。交互者會(huì)盡可能的和系統(tǒng)進(jìn)行交流,3 位裁判會(huì)通過(guò)耳機(jī)聽(tīng)到對(duì)話,然后會(huì)在他們覺(jué)得不需要再繼續(xù)進(jìn)行對(duì)話的時(shí)候按下停止鍵。當(dāng)有 2 位裁判按下停止鍵的時(shí)候,對(duì)話會(huì)被強(qiáng)制終止。3 位裁判會(huì)根據(jù)對(duì)話的質(zhì)量給出 1-5 之間的一個(gè)分?jǐn)?shù)。

10、你們團(tuán)隊(duì)平均對(duì)話持續(xù)時(shí)間是 10 分 22 秒,而第二名的平均時(shí)間是 3 分 55 秒,在這里你們占據(jù)了壓倒性的優(yōu)勢(shì),在這里能遠(yuǎn)遠(yuǎn)領(lǐng)先的關(guān)鍵是什么?

這里主要涉及到前面提到的 Sounding Board 的策略:以用戶為中心,以內(nèi)容為導(dǎo)向。

  • 用戶能夠控制對(duì)話的走向,隨時(shí)轉(zhuǎn)化話題,給出命令。

  • Sounding Board 會(huì)不斷推薦新的、高質(zhì)量的內(nèi)容,響應(yīng)用戶的各種需求,回應(yīng)用戶的情緒。

  • 構(gòu)建了為對(duì)話設(shè)計(jì)的知識(shí)圖譜,里面涵蓋了比較多樣化,高質(zhì)量的內(nèi)容,所以能進(jìn)行一些風(fēng)格多樣化的對(duì)話。

11、目前想要?jiǎng)?chuàng)造這種聊天機(jī)器人,你認(rèn)為最大的難點(diǎn)在哪里?而如果想要在工業(yè)中應(yīng)用,你認(rèn)為 Sounding Board 還有哪些需要改進(jìn)和完善的地方?

現(xiàn)在對(duì)這種聊天機(jī)器人的研究還剛剛起步,所以存在很多挑戰(zhàn)。我們認(rèn)為其中的一個(gè)難點(diǎn)在于理解用戶的語(yǔ)言和情緒,另一個(gè)難點(diǎn)在于組建高質(zhì)量的知識(shí)圖譜。

Sounding Board 在這兩個(gè)方面還存在很大的改進(jìn)空間。

此外,如何進(jìn)行更加深度的對(duì)話也是一個(gè)很大的挑戰(zhàn)。雖然我們嘗試了一些方法,但離目標(biāo)還有一段距離。

12、今年是第一屆比賽,你認(rèn)為今年的比賽對(duì)能力的考察主要側(cè)重在哪些方面?對(duì)于接下來(lái)參加類似比賽的同學(xué),有什么好的建議和經(jīng)驗(yàn)分享呢?

  • 想要在比賽中取得滿意的結(jié)果,首先需要注重用戶分析。我們?cè)诜治鲇脩艚换シ绞胶托枨蠓矫婊撕芏嗑Α?/p>

  • 而想要打造像 Sounding Board 這樣的系統(tǒng),大家需要掌握自然語(yǔ)言處理和數(shù)據(jù)挖掘這兩個(gè)比較重要的技能。

  • 同時(shí),也需要一定的系統(tǒng)工程方面的基礎(chǔ)——可以在短時(shí)間內(nèi)開(kāi)發(fā)一個(gè)能部署在云端的系統(tǒng),并且能夠響應(yīng)海量用戶請(qǐng)求。

我們的策略是讓系統(tǒng)盡早上線,從而可以分析用戶的交互模式,進(jìn)而對(duì)系統(tǒng)進(jìn)行迭代更新。

13、今年主辦方提供給第一名的獎(jiǎng)金是 50 萬(wàn)美元,你們的獎(jiǎng)金打算如何分配呢?接下來(lái)打算如何利用這些獎(jiǎng)金?

根據(jù)比賽主辦方的規(guī)定,50 萬(wàn)美元會(huì)平分給 5 個(gè)學(xué)生。我們暫時(shí)還沒(méi)有計(jì)劃如何使用這些獎(jiǎng)金。

這個(gè)階段我們更注重在現(xiàn)有的系統(tǒng)上做出一些高質(zhì)量的研究。

14、未來(lái)會(huì)考慮往什么方向發(fā)展?

方昊:我大概在今年夏天畢業(yè),我的研究方向主要是自然語(yǔ)言處理、對(duì)話系統(tǒng)和機(jī)器學(xué)習(xí)。未來(lái)會(huì)考慮往工業(yè)界發(fā)展,做更多比較前沿的,和用戶、產(chǎn)品有緊密聯(lián)系的研究。

程浩:在這次比賽中,我們隊(duì)伍積累了很多寶貴的資源和經(jīng)驗(yàn),我希望繼續(xù)在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理方向做一些深入的研究,準(zhǔn)備明年畢業(yè)。

(完)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

亞馬遜 Alexa Prize 比賽冠軍團(tuán)隊(duì)專訪:聊天機(jī)器人的突破與創(chuàng)新

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)