丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

谷歌開放全新自然語言數(shù)據(jù)集:多元化場景更詳細標注,讓 AI 助手更懂人類

本文作者: 楊鯉萍 2019-09-09 18:28
導語:更接近人類對話的數(shù)據(jù)

雷鋒網(wǎng) AI 開發(fā)者:近日,谷歌宣布開放兩個新的自然語言對話數(shù)據(jù)集,分別是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。這兩個數(shù)據(jù)集旨在對更接近人類對話的數(shù)據(jù)進行更詳細的標注,并提供到自然語言處理相關研究者更符合生活實際的數(shù)據(jù)內容。谷歌發(fā)布了相關內容詳細介紹該開放數(shù)據(jù)集,雷鋒網(wǎng) AI 開發(fā)者將其整理及編譯如下。

谷歌開放全新自然語言數(shù)據(jù)集:多元化場景更詳細標注,讓 AI 助手更懂人類

數(shù)據(jù)集背景

目前,智能助理能夠完成多類任務并返回多個主題的個性化結果,例如:電影列表、餐廳預訂和旅行計劃等。然而,盡管近年來,我們在這方面取得了巨大進步,但智能助理依舊未能達到人類理解的水平。

產(chǎn)生這樣的結果,一部分是由于智能助理缺乏高質量的訓練數(shù)據(jù);而這些數(shù)據(jù)恰好能夠準確地反映人們向智能助理表達的需求和偏好方式。

正是因為這些系統(tǒng)的局限性會影響我們表達的「我們希望得到理解」的內容,因此我們常常選擇調整自己的言辭,而反過來去適應智能助理所能理解的內容。換言之,現(xiàn)在的智能助理對話理解能力,遠遠沒有達到人類所需的對話復雜程度。

更自然的對話框數(shù)據(jù)集

為了解決這個問題,我們發(fā)布了 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1 對話框數(shù)據(jù)集。兩個集合都使用了 Wizard-of-Oz 平臺(https://en.wikipedia.org/wiki/Wizard_of_Oz_experiment),該平臺能夠將兩個進行口語對話的人匹配,就像那些想要擁有真正有效的智能助理的人一樣。

對于這兩個數(shù)據(jù)集,Wizard-of-Oz 平臺內部的設計旨在獨特地模仿現(xiàn)在基于語音的智能助理,在自動化系統(tǒng)的環(huán)境中保留口語對話的特征。

由于「人類助理」可以準確地理解用戶所要求的內容,因此我們能夠捕捉用戶如何將自己真實地表達給「完美」的智能助理,以便我們可以繼續(xù)改進這樣的系統(tǒng)。

谷歌開放全新自然語言數(shù)據(jù)集:多元化場景更詳細標注,讓 AI 助手更懂人類

CCPE 數(shù)據(jù)集

CCPE 全稱為 Coached Conversational Preference Elicitation,它是我們提出的一種在對話中獲得用戶偏好的新方法,即它允許收集自然但結構化的會話偏好。通過研究一個領域的對話,我們對人們如何描述電影偏好進行了簡要的定量分析;并且向社區(qū)發(fā)布了 CCPE-M 數(shù)據(jù)集,該數(shù)據(jù)集中有超過 500 個電影偏好對話,表達了 10,000 多個偏好。

具體而言,它由 502 個對話框組成的數(shù)據(jù)集,在用戶和助理之間用自然語言討論電影首選項時有 12,000 個帶注釋的發(fā)音。它通過兩個付費人群工作者之間的對話收集,其中一個工作人員扮演「助手」的角色,而另一個工作人員扮演「用戶」的角色?!钢帧拱凑?CCPE 方法引出關于電影的「用戶」偏好。

助理提出的問題旨在盡量減少「用戶」用來盡可能多地傳達他或她的偏好的術語中的偏見,并以自然語言獲得這些偏好。每個對話框都使用實體提及、關于實體表達的首選項、提供的實體描述以及實體的其他語句進行注釋。

偏好啟發(fā)

在面向電影的 CCPE 數(shù)據(jù)集中,冒充用戶的個人對著麥克風講話,并且音頻直接播放給冒充數(shù)字助理的人。「助手」則輸出他們的響應,然后通過文本到語音向用戶播放。

這些雙人自然對話包括在使用合成對話難以復制的雙方之間自發(fā)發(fā)生的不流暢和錯誤。這創(chuàng)建了一系列關于人們電影偏好的自然且有條理的對話。

在對這個數(shù)據(jù)集的觀察中,我們發(fā)現(xiàn)人們描述他們的偏好的方式非常豐富。該數(shù)據(jù)集是第一個大規(guī)模表征該豐富度的數(shù)據(jù)集。我們還發(fā)現(xiàn),偏好也稱為選項的特征,并不總是與智能助理的方式相匹配,或者與推薦網(wǎng)站的方式相匹配。換言之,你最喜愛的電影網(wǎng)站或服務上的過濾器,可能與你在尋求個人推薦時描述各種電影時使用的語言并不匹配。

有關 CCPE 數(shù)據(jù)集的詳細信息,請參閱我們的研究論文(https://ai.google/research/pubs/pub48414),該論文將在 2019 年話語與對話特別興趣小組(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年會上發(fā)布。

Taskmaster-1 數(shù)據(jù)集

在 Taskmaster-1 的對話框數(shù)據(jù)集中,已經(jīng)累計了 13215 個基于任務的對話框,包含 7708 個書面表達以及 5507 個口語表達數(shù)據(jù)。該數(shù)據(jù)集內容覆蓋了六個生活領域,包括:訂購披薩,創(chuàng)建汽車維修預約,設置租車,訂購電影票,訂購咖啡飲料和預訂餐廳。

面向任務的對話框

該數(shù)據(jù)集通過兩個程而創(chuàng)建,每個程序都具有獨特的優(yōu)勢。第一個涉及兩個人口頭交流的「Wizard-of-Oz」方法,其中受過訓練的智能體和人互動以完成任務;而第二個是「自我對話」,其中由單人書面技術增加語料庫大小和說話者多樣性,包含了大約 7700 寫入「自我對話」條目和約 5500 個雙人口語對話。

對于書面對話,我們讓人們根據(jù)每個任務概述的場景自己創(chuàng)建完整的對話,從而扮演用戶和助手的角色。因此,雖然口語對話更接近地反映了會話語言,但書面對話既適當豐富又復雜,但更便宜且更容易收集。

我們不會將工作者限制在詳細的腳本或小型知識庫中,因此我們觀察到與現(xiàn)有數(shù)據(jù)集相比,這一數(shù)據(jù)集包含更真實和多樣化的對話。

我們還提供了幾種基線模型,包括具有基準性能的最先進神經(jīng)機器翻譯架構以及定性人體評估。對話框標有 API 調用和參數(shù),這是一種簡單且經(jīng)濟有效的方法,可避免復雜注釋模式的要求。對話模型和服務提供者 API 之間的抽象層允許給定模型與提供類似功能的多個服務交互。

與傳統(tǒng)的,詳細的策略相比,我們只關注每種類型的會話的 API 參數(shù),而不僅僅是執(zhí)行事務所需的變量。例如,在關于安排乘坐共享的對話框中,我們將「到」和「從」位置標記為汽車類型(經(jīng)濟、豪華、帶游泳池等)。對于電影票,我們標記電影名稱、劇院、時間、票數(shù),有時還有屏幕類型(例如 3D 或標準)。語料庫版本中都包含了完整的標簽列表。

Taskmaster-1 數(shù)據(jù)集(https://ai.google/research/pubs/pub48484)相關內容,在 2019 年自然語言處理經(jīng)驗方法會議(https://www.emnlp-ijcnlp2019.org/)上出現(xiàn)的研究論文中進行了詳細描述。

我們希望這些數(shù)據(jù)集對于研究界在對話系統(tǒng)和會話推薦中的實驗和分析都是有用的。

谷歌開放全新自然語言數(shù)據(jù)集:多元化場景更詳細標注,讓 AI 助手更懂人類

文章鏈接

https://ai.googleblog.com/ 

CCPE 數(shù)據(jù)集下載相關:

https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json 

Taskmaster-1 數(shù)據(jù)集下載相關:

https://storage.googleapis.com/dialog-data-corpus/TASKMASTER-1-2019/landing_page.html 

雷鋒網(wǎng) AI 開發(fā)者

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

谷歌開放全新自然語言數(shù)據(jù)集:多元化場景更詳細標注,讓 AI 助手更懂人類

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說