丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI

本文作者: 楊曉凡 2018-10-24 10:30
導(dǎo)語(yǔ):OpenAI:一個(gè)想法,不一定對(duì)。但試了一下還不錯(cuò)

「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI

雷鋒網(wǎng) AI 科技評(píng)論按:正如我們?nèi)栽谧匀徽Z(yǔ)言處理的漫漫征途上摸索,AI 安全的課題也仍然沒(méi)有得到系統(tǒng)的解決。作為前沿探索的積極分子,OpenAI 也不斷提出新的思路,有許多既符合人類(lèi)的思路,也便于未來(lái)長(zhǎng)期的 AI 發(fā)展。

這次,OpenAI 提出了一種名為「迭代擴(kuò)增」(iterated amplification)的 AI 安全新技術(shù),它可以幫助我們鑒別超出人類(lèi)可控尺度之外的復(fù)雜行為和目標(biāo),只需要演示如何把某個(gè)任務(wù)分解成一些簡(jiǎn)單的子任務(wù),而無(wú)需提供傳統(tǒng)的標(biāo)注數(shù)據(jù)或者反饋函數(shù)。雖然這種想法還處在很早期的階段,OpenAI 的研究人員們僅僅基于一些非常簡(jiǎn)單的算法任務(wù)進(jìn)行了實(shí)驗(yàn),但他們?nèi)匀粵Q定應(yīng)該毫無(wú)保留地把它的初始模樣公布出來(lái)。他們覺(jué)得,這有可能為 AI 安全帶來(lái)一條可大規(guī)模拓展的光明路徑。雷鋒網(wǎng) AI 科技評(píng)論介紹如下。

從去掉直接的評(píng)價(jià)開(kāi)始

傳統(tǒng)上,如果我們想要訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)執(zhí)行某項(xiàng)任務(wù),我們都會(huì)需要一個(gè)訓(xùn)練信號(hào),這個(gè)訓(xùn)練信號(hào)的作用是提供一個(gè)評(píng)價(jià)方式,根據(jù)評(píng)價(jià)出的「好」或者「差」的結(jié)果引導(dǎo)系統(tǒng)的學(xué)習(xí)。比如,監(jiān)督學(xué)習(xí)中的數(shù)據(jù)標(biāo)注,或者強(qiáng)化學(xué)習(xí)中的反饋,就是這樣的訓(xùn)練信號(hào)。這種機(jī)器學(xué)習(xí)范式通常假定了訓(xùn)練信號(hào)是已經(jīng)明確地存在的,然后就可以關(guān)注這個(gè)信號(hào)進(jìn)行學(xué)習(xí)。但是在更多的現(xiàn)實(shí)任務(wù)中,我們總需要找一個(gè)什么東西,然后把它作為訓(xùn)練信號(hào)。如果我們找不到合適的訓(xùn)練信號(hào),我們就沒(méi)辦法讓系統(tǒng)學(xué)習(xí);或者如果我們找到的訓(xùn)練信號(hào)不合理,系統(tǒng)就會(huì)學(xué)到奇怪的行為,有時(shí)候這些行為甚至可能是危險(xiǎn)的。所以,不論是對(duì)于一般性地學(xué)習(xí)一個(gè)新任務(wù),還是對(duì)于 AI 安全的研究,如果有更好的辦法找到/生成訓(xùn)練信號(hào),都會(huì)是一件極具價(jià)值的事情。

那么,我們現(xiàn)在是如何生成訓(xùn)練信號(hào)的呢?一些情況下,我們想要的目標(biāo)是可以直接用數(shù)學(xué)形式描述的,比如圍棋中的計(jì)分、比如賽車(chē)游戲中車(chē)輛走了多遠(yuǎn)(下圖,左下),或者檢查給出的一組亂序數(shù)字是否被正確排序(左上)。然而多數(shù)真實(shí)世界的任務(wù)并不能展示出明確的、可以用數(shù)學(xué)形式表示的訓(xùn)練信號(hào),比如后空翻、比如做飯,在這種時(shí)候我們常??梢钥紤]讓一個(gè)人做一次這個(gè)任務(wù)(標(biāo)注一個(gè)訓(xùn)練數(shù)據(jù)集,中上,或者實(shí)際操作一遍,中下),供系統(tǒng)模仿,以此作為訓(xùn)練信號(hào),又或者作為評(píng)價(jià)者,從旁評(píng)價(jià)系統(tǒng)執(zhí)行任務(wù)的效果如何。然而,有許多任務(wù)還是無(wú)法用這些方法解決,它們過(guò)于復(fù)雜,以至于人類(lèi)既無(wú)法給出評(píng)價(jià)、也無(wú)法執(zhí)行它們;這樣的任務(wù)例如,設(shè)計(jì)一個(gè)復(fù)雜的城市交通系統(tǒng),或者管理一個(gè)數(shù)百臺(tái)計(jì)算機(jī)組成的網(wǎng)絡(luò),負(fù)責(zé)其中的安全細(xì)節(jié)(右)。

「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI

迭代擴(kuò)增就是為最后這類(lèi)任務(wù)生成訓(xùn)練信號(hào)的方法,當(dāng)然了它也需要一定的假設(shè)。名義上講,雖然一個(gè)人沒(méi)有辦法直接執(zhí)行或者直接評(píng)價(jià)整個(gè)任務(wù),但 OpenAI 假設(shè),當(dāng)你把任務(wù)的部分交給一個(gè)人的時(shí)候,他是有能力把它分解成幾個(gè)更小的、清晰的部分的。比如,對(duì)于剛才提到的計(jì)算機(jī)網(wǎng)絡(luò)安全的例子,人可以把「防衛(wèi)一組服務(wù)器和路由器的安全」這個(gè)任務(wù)分解成「考慮防范對(duì)服務(wù)器的攻擊」、「可考慮防范對(duì)路由器的攻擊」、「考慮這兩種攻擊方式互動(dòng)的可能性」三部分。另外,OpenAI 也假設(shè)人類(lèi)有能力執(zhí)行任務(wù)中的一小部分,比如對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)安全的例子,人類(lèi)能夠「確認(rèn) log 文件中的某一行記錄是可疑的」。如果這兩個(gè)假設(shè)為真,那么 OpenAI 認(rèn)為我們就能夠根據(jù)人類(lèi)做小的細(xì)分任務(wù)的能力,為大規(guī)模的任務(wù)構(gòu)建訓(xùn)練信號(hào),同時(shí)讓人來(lái)參與協(xié)調(diào)整個(gè)任務(wù)的拼裝。

在 OpenAI 的迭代擴(kuò)增的實(shí)現(xiàn)中,他們首先對(duì)小的分任務(wù)進(jìn)行采樣,訓(xùn)練 AI 系統(tǒng)仿照人類(lèi)執(zhí)行這些分任務(wù)的演示進(jìn)行學(xué)習(xí)。然后他們開(kāi)始采樣更大一些的任務(wù),借助人類(lèi)的幫助把大任務(wù)分解成較小的任務(wù),而這些較小的任務(wù)正是前一步中經(jīng)過(guò)訓(xùn)練的 AI 可以解決的。接著,OpenAI 把這些在人類(lèi)的幫助下得到的二階任務(wù)的解決方案直接作為訓(xùn)練信號(hào),訓(xùn)練直接解決二階任務(wù)的 AI 系統(tǒng)——這次也就不再需要人類(lèi)幫助了。下一步,OpenAI 繼續(xù)組合不同的任務(wù),在過(guò)程中不斷建立更完整的訓(xùn)練信號(hào)。如果這個(gè)過(guò)程奏效的話(huà),我們最終就可以期望得到一個(gè)完全自動(dòng)的系統(tǒng),它可以解決非常復(fù)雜的組合性任務(wù),即便在剛開(kāi)始學(xué)習(xí)時(shí)沒(méi)有任何針對(duì)這些任務(wù)的直接訓(xùn)練信號(hào)。

這個(gè)過(guò)程和 AlphaGo Zero 中用到的「專(zhuān)家迭代」(expert iteration)有相似之處,區(qū)別在于專(zhuān)家迭代會(huì)不斷強(qiáng)化一個(gè)現(xiàn)有的訓(xùn)練信號(hào),而迭代擴(kuò)增則是從零開(kāi)始逐步構(gòu)建完善的需訓(xùn)練信號(hào)。迭代擴(kuò)增也和近期的幾個(gè)學(xué)習(xí)算法有一些共同的特征,在測(cè)試階段解決問(wèn)題時(shí),它們都可以現(xiàn)場(chǎng)分解任務(wù)以便處理,只不過(guò)它們的運(yùn)行環(huán)境設(shè)置中并沒(méi)有前期的訓(xùn)練信號(hào)。

實(shí)驗(yàn)結(jié)果

正如之前通過(guò)吵架達(dá)到 AI 安全的研究,把一個(gè)原型階段的項(xiàng)目直接在超過(guò)人類(lèi)能力的大規(guī)模任務(wù)上運(yùn)行是不現(xiàn)實(shí)的。而且,真的用人來(lái)做前期需要的訓(xùn)練喜好也會(huì)帶來(lái)額外的復(fù)雜度,所以目前 OpenAI 并未這樣做(計(jì)劃未來(lái)會(huì)做做)。

對(duì)于早期實(shí)驗(yàn),OpenAI 首先嘗試把迭代擴(kuò)增用在具有數(shù)學(xué)形式的訓(xùn)練信號(hào)上,以便說(shuō)明它在簡(jiǎn)單的設(shè)定下是可以奏效的;OpenAI 也暫時(shí)把注意力限制在監(jiān)督學(xué)習(xí)領(lǐng)域內(nèi)(上一次借助人類(lèi)生成隱式的訓(xùn)練信號(hào)見(jiàn) 你做我評(píng),根據(jù)人類(lèi)反饋高效學(xué)習(xí))。他們?cè)?5 個(gè)簡(jiǎn)單的可以數(shù)學(xué)化的簡(jiǎn)單任務(wù)上嘗試了迭代擴(kuò)增方法。這些任務(wù)本身具有直接的、有清晰數(shù)學(xué)形式的解(比如找到一個(gè)圖的兩個(gè)節(jié)點(diǎn)之間的最短路徑),但 OpenAI 的研究人員們暫時(shí)假裝不知道這個(gè)解。解決這些任務(wù)可以通過(guò)把小的、單步的推演過(guò)程一個(gè)個(gè)拼接起來(lái)(比如把相連的兩個(gè)短路徑拼接起來(lái)形成一個(gè)長(zhǎng)的路徑),不過(guò)想要靠人工把所有的東西都這樣拼接起來(lái)則會(huì)耗費(fèi)非常多的精力。

在這種設(shè)置下,OpenAI 只把任務(wù)的小部分作為訓(xùn)練信號(hào),測(cè)試使用迭代擴(kuò)增來(lái)學(xué)習(xí)最終的直接解決算法;這個(gè)過(guò)程作為「人類(lèi)知道如何組合一個(gè)組合的各個(gè)部分,但無(wú)法給出一個(gè)直接的訓(xùn)練信號(hào)」情境的簡(jiǎn)單模擬。

對(duì)于五個(gè)任務(wù)中的每一個(gè)任務(wù)(置換排序、序列對(duì)齊、通配符搜索、最短路徑搜索以及聯(lián)盟搜索),迭代擴(kuò)增學(xué)習(xí)到的結(jié)果都可以和監(jiān)督學(xué)習(xí)直接學(xué)到的結(jié)果有近似的表現(xiàn) —— 別忘了,這可是以“沒(méi)有直接的訓(xùn)練信號(hào)”作為阻礙,還取得了這樣的可貴,難能可貴。(另外值得說(shuō)明的是,OpenAI 的目標(biāo)是希望迭代擴(kuò)增能利用更少的信息也取得與監(jiān)督學(xué)習(xí)相當(dāng)?shù)某煽?jī),而無(wú)需超過(guò))

「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI

在任務(wù)中,迭代擴(kuò)增無(wú)需查看真實(shí)值標(biāo)注,就可以取得和監(jiān)督學(xué)習(xí)近似的表現(xiàn)

迭代擴(kuò)增和 OpenAI 之前通過(guò)吵架達(dá)到 AI 安全的研究有許多相似的特征。和通過(guò)吵架達(dá)到 AI 安全一樣,它都是在想辦法解決那些根據(jù)人類(lèi)的現(xiàn)有問(wèn)題無(wú)法直接操作、或者無(wú)法直接評(píng)價(jià)的任務(wù),過(guò)程則是一個(gè)迭代進(jìn)步的過(guò)程,而人類(lèi)就可以在這個(gè)過(guò)程中提供間接的監(jiān)督,不管具體的任務(wù)、具體的操作細(xì)節(jié)有多么不同。迭代擴(kuò)增也利用了 OpenAI 在你做我評(píng)中的研究成果,它實(shí)現(xiàn)了一個(gè)反饋預(yù)測(cè)系統(tǒng),之后的更新的版本也很有可能可以包括來(lái)自真正的人類(lèi)的反饋。

目前為止 OpenAI 對(duì)這幾種不同的路徑的探索都還只是在很初級(jí)的程度上,下一步的挑戰(zhàn)就是如何拓展它們的規(guī)模,讓它們解決更有趣、也更現(xiàn)實(shí)的問(wèn)題。

論文地址:https://arxiv.org/abs/1810.08575

viablog.openai.com,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)