丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

本文作者: camel 2018-04-30 19:59 專題:ACL 2018
導(dǎo)語:BLUE、METEOR高分能代表好模型嗎?真的難說!

雷鋒網(wǎng) AI 科技評論按:近日,圣塔芭芭拉加州大學(xué) 王威廉教授 團(tuán)隊在 arXiv 上貼出一篇論文《No Metrics Are Perfect: Adversarial Reward Learning or Visual Storytelling》。這篇論文指出,在「看圖講故事」這樣比較主觀的任務(wù)中,現(xiàn)行的評價體系(例如METEOR、BLEU等)會失效。由此他們提出了對抗獎勵學(xué)習(xí)框架,通過逆向強(qiáng)化學(xué)習(xí)來獲得最佳的獎勵函數(shù)。實(shí)驗(yàn)結(jié)果表明,在自動評價體系里,這種方法能夠獲得與GAN、強(qiáng)化學(xué)習(xí)等模型相同或稍高一點(diǎn)的結(jié)果;而在人工評價體系里,則要比它們的結(jié)果好很多。

目前,該論文已被自然語言處理頂級會議 ACL 2018 錄取。


UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018



話說,放在兩年前,「看圖說話」(視覺字幕,Visual Captioning)還是一個讓人比較興奮的研究熱點(diǎn),而現(xiàn)在已經(jīng)出現(xiàn)了許多「看圖講故事」(視覺敘事,Visual Storytelling)的研究工作。這兩項任務(wù)的區(qū)別和難度顯而易見。以下面這幾幅圖為例:

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

「看圖說話」要求檢測圖片中出現(xiàn)的人和物,然后用自然語言把它表述出來。針對上面的圖片其輸出結(jié)果為:

(a) A small boy and a girl are sitting together.

(b) Two kids sitting on a porch with their backpacks on.

(c) Two young kids with backpacks sitting on the porch.

(d) Two young children that are very close to one another.

(e) A boy and a girl smiling at the camera together.

而「看圖講故事」則需要更進(jìn)一步,它需要提取出圖片的主要思想,然后將多張連續(xù)圖片的內(nèi)容連貫成一個完整的故事。這就意味著不僅僅是要描述圖片包含的物體,還需要“發(fā)揮想象”說出圖像中沒有明確表達(dá)的信息,例如人的情緒、潛在的物體等(如下面彩色字體所示)。針對上面5張系列圖片的輸出結(jié)果為:

Story #1: The brother and sister were ready for the first day of school. They were excited to go to their first day and meet new friends. They told their mom how happy they were. They said they were going to make a lot of new friends . Then they got up and got ready to get in the car .


Story #2: The brother did not want to talk to his sister. The siblings made up. They started to talk and smile. Their parents showed up. They were happy to see them

顯然「看圖講故事」的主觀性很大,這也就造成這個任務(wù)缺少標(biāo)準(zhǔn)的模板,例如上面一組圖片可以編成兩個完全不同的故事。

早期(其實(shí)也就16、17年)的視覺敘事研究主要還是受啟于視覺字幕的成功,仍然是通過訓(xùn)練來最大化觀測數(shù)據(jù)對的似然值,這導(dǎo)致的結(jié)果就是由于數(shù)據(jù)庫中的表達(dá)模式有限,生成的敘事結(jié)果也非常的簡單和平淡。為了解決這個問題,同時生成更類似于人類描述的故事,Rennie等人曾提出一種增強(qiáng)學(xué)習(xí)的框架。但是,由于在視覺敘事的任務(wù)中,常見的增強(qiáng)學(xué)習(xí)方法主要基于字符串匹配的手工獎勵(BLEU、METEOR、ROUGE、CIDEr等),這對于推動策略搜索來說要么是有偏差的,要么就過于稀疏。舉例來說,本文作者在文章中作為對比,使用ROUGE分?jǐn)?shù)作為獎勵來強(qiáng)化其策略學(xué)習(xí)時,他們發(fā)現(xiàn)當(dāng)ROUGE得分顯著提高時,其他分?jǐn)?shù)(例如BLEU, CIDEr等)卻并不隨之而改善,甚至可能會降到0。

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

(中間四行是基于手工獎勵的增強(qiáng)學(xué)習(xí)模型,XE-ss和AREL(該論文所提出的模型)后文會講到。)

一個對抗性的例子如下:

We had a great time to have a lot of the. They were to be a of the. They were to be in the. The and it were to be the. The, and it were to be the.

其平均 METEOR 得分高達(dá) 40.2,但其他得分卻很低。這說明,傳統(tǒng)的這些手工獎勵不能勝任「看圖講故事」任務(wù)的獎勵機(jī)制。

為了解決這個問題,作者受啟于「逆增強(qiáng)學(xué)習(xí)」,提出了對抗獎勵學(xué)習(xí)(Adversarial REward Learning,AREL)的框架。和先前方法相比不同的是,這里不再使用傳統(tǒng)的手工獎勵方式,而是加入一個獎勵模型,這個獎勵模型通過人類的示例來學(xué)習(xí)隱式獎勵函數(shù),從而來優(yōu)化策略模型的生成結(jié)果。AREL框架圖如下所示:

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

那么這個模型框架好不好呢?

作者使用2016年 Ting-Hao K. Huang等人發(fā)布的 Visual Storytelling (VIST) 數(shù)據(jù)集來做檢驗(yàn)。VIST數(shù)據(jù)集是首個 sequential vision-to-language 任務(wù)(包括視覺敘事任務(wù))的數(shù)據(jù)集,其中包含有 10117 個 Flickr 相冊(網(wǎng)絡(luò)相冊)和 210819 張獨(dú)立的照片。

好與不好取決于評價的標(biāo)準(zhǔn)。針對「視覺敘事」這項任務(wù),傳統(tǒng)上來說就是用 BLEU (B), METEOR (M), ROUGH-L (R), and CIDEr (C) 的分?jǐn)?shù)作為評價指標(biāo)。作為對比,作者除了選用 Huang et al Yu et al 兩個結(jié)果作為對比外,還選用了目前來看最好的兩個模型,一個是 XE-ss,另一個是 GAN 模型。本文的 AREL 模型采用了與 XE-ss 相同的策略模型,不同點(diǎn)在于 XE-ss 模型使用交叉熵作為獎勵函數(shù),而 AREL 有專門的獎勵學(xué)習(xí)模型。

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)采用傳統(tǒng)的指標(biāo)來做評價時,AREL 至少達(dá)到了 state-of-art 的標(biāo)準(zhǔn),甚至還有些微的提升。

但是作者內(nèi)心似乎已經(jīng)不再相信在「視覺敘事」任務(wù)中這些傳統(tǒng)的指標(biāo)能夠成為好的評價標(biāo)準(zhǔn),他們更傾向于認(rèn)為在這種創(chuàng)造性的工作中應(yīng)該讓人類來判斷好壞。因此他們選擇在亞馬遜土耳其機(jī)器人上進(jìn)行了兩種不同的人類評估實(shí)驗(yàn):圖靈測試(Turing test)和 成對人類評估(pairwise human evaluation)。

在圖靈測試中,每一個評價人員(worker)會同時給一個人工注釋的樣本和一個機(jī)器生成的樣本,讓他判斷哪個是人類/機(jī)器生成的。作者針對 XE-ss、BLEU-RL、CIDEr- RL、GAN 和 AREL 五個模型分別獨(dú)立做了圖靈測試:

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

可以看出,AREL模型的結(jié)果在人類評價中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型的結(jié)果,Win+Unsure的比例已經(jīng)非常接近50%了。

為了進(jìn)一步地比較不同算法在故事語義特征之間的差異,作者又進(jìn)行了四種成對比較測試:AREL分別與XE-ss、BLEU-RL、CIDEr-RL、GAN之間的比較。比較的流程就是:向評價人員同時呈現(xiàn)兩個生成的故事,要求他們從三個方面(關(guān)聯(lián)性、表現(xiàn)力和具體性)進(jìn)行投票。例如下面這個樣本(實(shí)驗(yàn)中沒有Human-created story,這里作為參考出現(xiàn)):

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

在關(guān)聯(lián)性、表現(xiàn)力和具體性三方面,(AREL:XE-ss:平局)的投票結(jié)果分別為5:0:0,4:0:1,5:0:0。整個實(shí)驗(yàn)的結(jié)果如下:

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

這種壓倒性的結(jié)果表明(至少是經(jīng)驗(yàn)性地表明),AREL模型生成的故事在關(guān)聯(lián)性、表現(xiàn)力和具體性方面更優(yōu)異,而這在自動度量評估中并沒有被明確地反映出來。

不得不強(qiáng)調(diào)一點(diǎn):以上的這些結(jié)果也從側(cè)面說明了,在主觀性較大的任務(wù)(例如視覺敘事)中傳統(tǒng)評價標(biāo)準(zhǔn)在一定程度上是不可靠的。所以,一方面在任務(wù)中使用傳統(tǒng)的自動評價標(biāo)準(zhǔn)時,要慎行;另一方面,即使你得到一個非常高的分?jǐn)?shù),也不一定說明你的模型就是好的。

雷鋒網(wǎng)總結(jié)這篇論文的意義:

1、這篇論文指出了一點(diǎn):即在主觀性較強(qiáng)的任務(wù)中,傳統(tǒng)的自動度量無論在訓(xùn)練還是評估方面都不一定合適;

2、針對以上問題,作者提出了一種對抗獎勵學(xué)習(xí)的框架,這種框架在人類評估測試中表現(xiàn)良好。

論文地址:https://arxiv.org/abs/1804.09160


論文摘要

近來雖然在視覺字幕任務(wù)中取得了令人印象深刻的結(jié)果,但從照片流中生成抽象故事的任務(wù)仍然是一個難題。與字幕不同,故事具有更多語言表達(dá)風(fēng)格,并且包含許多不存在于圖像中的虛構(gòu)概念。因此它對行為克隆算法提出了挑戰(zhàn)。此外,由于評估故事質(zhì)量的自動指標(biāo)的局限性,手工獎勵的強(qiáng)化學(xué)習(xí)方法在獲得整體性能提升方面也面臨困難。因此,我們提出了一個對抗獎勵學(xué)習(xí)(AREL)框架,以從人類示例中學(xué)習(xí)一個隱式獎勵函數(shù),然后利用這個學(xué)習(xí)到的獎勵函數(shù)來優(yōu)化策略搜索。雖然自動評估顯示我們的方法在克隆專家行為中性能只比最先進(jìn)的(SOTA)方法略有提升,但人類評估顯示我們的方法在生成更類人的故事中性能要比SOTA系統(tǒng)有顯著地提升。

via 雷鋒網(wǎng)AI科技評論

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

UCSB新作:「看圖講故事」中,現(xiàn)行的評價體系會失效 | ACL 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說