丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智能駕駛 正文
發(fā)私信給大壯旅
發(fā)送

0

別亂用開(kāi)源數(shù)據(jù)集,它可能會(huì)把自動(dòng)駕駛汽車帶溝里!

本文作者: 大壯旅 2020-04-03 17:14
導(dǎo)語(yǔ):機(jī)器學(xué)習(xí)模型的性能與訓(xùn)練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)

別亂用開(kāi)源數(shù)據(jù)集,它可能會(huì)把自動(dòng)駕駛汽車帶溝里!

雷鋒網(wǎng)按,眾所周知,機(jī)器學(xué)習(xí)模型的性能與訓(xùn)練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)。不過(guò),怕什么來(lái)什么,計(jì)算視覺(jué)新創(chuàng)公司 Roboflow 就宣稱,我們擔(dān)心的情況在行業(yè)內(nèi)時(shí)有發(fā)生。 Roboflow  的創(chuàng)始人 Brad Dwyer 指出,一些用來(lái)訓(xùn)練自動(dòng)駕駛汽車的知名數(shù)據(jù)集遺漏了不少關(guān)鍵數(shù)據(jù)。

Dwyer 指出,包含了 1.5 萬(wàn)張圖片(主要是白天在山景城及附近區(qū)域采集)的 Udacity Dataset 2 就出現(xiàn)了遺漏。他們?cè)跀?shù)據(jù)集中發(fā)現(xiàn)了數(shù)千張沒(méi)有標(biāo)簽的車輛、行人圖片。在大約 5000 張圖片中,還出現(xiàn)了很多沒(méi)有標(biāo)簽的自行車(其中有 217 張甚至沒(méi)有任何注釋,但這些樣片中確實(shí)有小汽車、卡車、街燈或行人)。除此之外,Roboflow 還在該數(shù)據(jù)集中發(fā)現(xiàn)了虛假注釋以及復(fù)制粘貼,甚至體積明顯超標(biāo)的bounding box。

標(biāo)簽相當(dāng)重要,但它并不是 AI 系統(tǒng)理解范式含義(比如什么時(shí)候一個(gè)人會(huì)走到車前)并給予該知識(shí)評(píng)估未來(lái)事物的準(zhǔn)繩。不過(guò),錯(cuò)誤標(biāo)簽或者沒(méi)有標(biāo)簽的項(xiàng)目可能會(huì)造成精度降低或糟糕的決策,而對(duì)自動(dòng)駕駛汽車來(lái)說(shuō)這可是災(zāi)難的根源。

別亂用開(kāi)源數(shù)據(jù)集,它可能會(huì)把自動(dòng)駕駛汽車帶溝里!

數(shù)據(jù)集中很多目標(biāo)都沒(méi)有標(biāo)簽

“開(kāi)源數(shù)據(jù)集確實(shí)很棒,但如果想贏得公眾的信任,我們必須保證自己分享的數(shù)據(jù)足夠完整且準(zhǔn)確?!盌wyer 寫道。他還指出,在 Udacity 的自動(dòng)駕駛工程課上,成千上萬(wàn)的學(xué)生都在用 Dataset 2 支持一個(gè)開(kāi)源的自動(dòng)駕駛項(xiàng)目?!叭绻阍陧?xiàng)目中用了公共數(shù)據(jù)集,車輛上路前請(qǐng)一定要做好盡職調(diào)查并檢查其完整性。”

眾所周知,AI 容易因數(shù)據(jù)集不完整或偏斜而產(chǎn)生偏見(jiàn)。舉例來(lái)說(shuō),詞嵌入是一種常見(jiàn)的算法訓(xùn)練技術(shù),由于涉及將詞鏈接到向量,因而不可避免地會(huì)拾?。ㄗ钤愀獾氖欠糯螅┰次谋竞蛯?duì)話中隱含的偏見(jiàn)。眼下,許多面部識(shí)別系統(tǒng)就有點(diǎn)“種族歧視”,它們識(shí)別起有色人種錯(cuò)誤率就要高一些。Google Photos 甚至錯(cuò)誤為黑人打上了“大猩猩”的標(biāo)簽。

目前,除了 2018 年 Uber 測(cè)試車那起致命事故,自動(dòng)駕駛汽車遭遇的都是磕磕碰碰的小事故。不過(guò),這可能是因?yàn)槁飞系淖詣?dòng)駕駛汽車太少了,而未來(lái)情況可能會(huì)發(fā)生巨變。按市場(chǎng)研究公司 ABI 所言,2025 年將有 800 萬(wàn)臺(tái)自動(dòng)駕駛汽車上路,Research and Markets 則預(yù)計(jì)到 2030 年全美將有 2000 萬(wàn)臺(tái)自動(dòng)駕駛汽車投入運(yùn)營(yíng)。

別亂用開(kāi)源數(shù)據(jù)集,它可能會(huì)把自動(dòng)駕駛汽車帶溝里!

如果這些車輛都搭載著有缺陷的 AI 模型,一旦它們突然失靈,后果恐怕不堪設(shè)想,比如用一場(chǎng)惡性事故徹底毀掉人們對(duì)自動(dòng)駕駛汽車的信心。布魯金斯學(xué)會(huì)與高速公路和汽車安全維權(quán)組織(AHAS)的研究均發(fā)現(xiàn)大部分美國(guó)人都對(duì)自動(dòng)駕駛汽車的安全性不放心。布魯金斯學(xué)會(huì)的調(diào)查顯示,有超過(guò) 60% 的受訪者不想乘坐自動(dòng)駕駛汽車,而 AHAS 的調(diào)查中則有 70% 的受訪者不愿和自動(dòng)駕駛汽車共享道路。

想解決數(shù)據(jù)集的遺漏問(wèn)題,就必須用上更好的打標(biāo)簽方案。Dataset 2 在 Github 的官方頁(yè)面表示,自家的打標(biāo)簽工作靠的是眾包語(yǔ)料注釋公司 Autti,后者用到了機(jī)器學(xué)習(xí)與人工監(jiān)督相結(jié)合的方法。當(dāng)然,現(xiàn)在我們還無(wú)法肯定數(shù)據(jù)集的遺漏是否與這種打標(biāo)簽的方法有關(guān),未來(lái)嚴(yán)格的驗(yàn)證步驟才能給它蓋棺定論。

Roboflow 告訴 Sophos 的 Naked Security,稱公司計(jì)劃使用原始數(shù)據(jù)集和數(shù)據(jù)集的固定版本(已在開(kāi)放源代碼中提供)進(jìn)行實(shí)驗(yàn),以查看在訓(xùn)練各種模型架構(gòu)時(shí)問(wèn)題的嚴(yán)重程度。“如果與其他領(lǐng)域(例如醫(yī)學(xué),動(dòng)物,游戲)的數(shù)據(jù)集相比,Dataset 2 質(zhì)量真是特別差,” Dwyer解釋道。“我希望未來(lái)大公司們對(duì)打標(biāo)簽、清潔和驗(yàn)證過(guò)程再上點(diǎn)心吧?!?/p>

在一份聲明中,Udacity 強(qiáng)調(diào)稱,作為工具,自家的數(shù)據(jù)集純粹是為了教育目的而生,它們從未暗示過(guò)該數(shù)據(jù)集是完美的,或數(shù)據(jù)都打了標(biāo)簽。此外,雖然 Udacity 在用該數(shù)據(jù)集訓(xùn)練自家自動(dòng)駕駛汽車,但幾年來(lái)這些車輛均在封閉測(cè)試道路行駛,從沒(méi)上過(guò)公路。

“我們放出這個(gè)數(shù)據(jù)集的目的是為了幫助那些剛剛轉(zhuǎn)戰(zhàn)自動(dòng)駕駛領(lǐng)域的研究人員和工程師?!盪dacity 發(fā)言人說(shuō)道。“后來(lái),類似 Waymo、nuTonomy 和 Voyage 等公司都放出國(guó)更新更好的數(shù)據(jù)集,它們才是面向現(xiàn)實(shí)世界的。因此,我們這個(gè)項(xiàng)目三年都沒(méi)更新了。也就是說(shuō),濫用這些教育數(shù)據(jù)集不但起不到幫助作用,可能還會(huì)造成誤導(dǎo)?!?/p>

雷鋒網(wǎng)&雷鋒網(wǎng)&雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)