丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
智能駕駛 正文
發(fā)私信給大壯旅
發(fā)送

0

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

本文作者: 大壯旅 2020-04-03 17:14
導(dǎo)語:機器學習模型的性能與訓練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

雷鋒網(wǎng)按,眾所周知,機器學習模型的性能與訓練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)。不過,怕什么來什么,計算視覺新創(chuàng)公司 Roboflow 就宣稱,我們擔心的情況在行業(yè)內(nèi)時有發(fā)生。 Roboflow  的創(chuàng)始人 Brad Dwyer 指出,一些用來訓練自動駕駛汽車的知名數(shù)據(jù)集遺漏了不少關(guān)鍵數(shù)據(jù)。

Dwyer 指出,包含了 1.5 萬張圖片(主要是白天在山景城及附近區(qū)域采集)的 Udacity Dataset 2 就出現(xiàn)了遺漏。他們在數(shù)據(jù)集中發(fā)現(xiàn)了數(shù)千張沒有標簽的車輛、行人圖片。在大約 5000 張圖片中,還出現(xiàn)了很多沒有標簽的自行車(其中有 217 張甚至沒有任何注釋,但這些樣片中確實有小汽車、卡車、街燈或行人)。除此之外,Roboflow 還在該數(shù)據(jù)集中發(fā)現(xiàn)了虛假注釋以及復(fù)制粘貼,甚至體積明顯超標的bounding box。

標簽相當重要,但它并不是 AI 系統(tǒng)理解范式含義(比如什么時候一個人會走到車前)并給予該知識評估未來事物的準繩。不過,錯誤標簽或者沒有標簽的項目可能會造成精度降低或糟糕的決策,而對自動駕駛汽車來說這可是災(zāi)難的根源。

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

數(shù)據(jù)集中很多目標都沒有標簽

“開源數(shù)據(jù)集確實很棒,但如果想贏得公眾的信任,我們必須保證自己分享的數(shù)據(jù)足夠完整且準確?!盌wyer 寫道。他還指出,在 Udacity 的自動駕駛工程課上,成千上萬的學生都在用 Dataset 2 支持一個開源的自動駕駛項目。“如果你在項目中用了公共數(shù)據(jù)集,車輛上路前請一定要做好盡職調(diào)查并檢查其完整性?!?/strong>

眾所周知,AI 容易因數(shù)據(jù)集不完整或偏斜而產(chǎn)生偏見。舉例來說,詞嵌入是一種常見的算法訓練技術(shù),由于涉及將詞鏈接到向量,因而不可避免地會拾?。ㄗ钤愀獾氖欠糯螅┰次谋竞蛯υ捴须[含的偏見。眼下,許多面部識別系統(tǒng)就有點“種族歧視”,它們識別起有色人種錯誤率就要高一些。Google Photos 甚至錯誤為黑人打上了“大猩猩”的標簽。

目前,除了 2018 年 Uber 測試車那起致命事故,自動駕駛汽車遭遇的都是磕磕碰碰的小事故。不過,這可能是因為路上的自動駕駛汽車太少了,而未來情況可能會發(fā)生巨變。按市場研究公司 ABI 所言,2025 年將有 800 萬臺自動駕駛汽車上路,Research and Markets 則預(yù)計到 2030 年全美將有 2000 萬臺自動駕駛汽車投入運營。

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

如果這些車輛都搭載著有缺陷的 AI 模型,一旦它們突然失靈,后果恐怕不堪設(shè)想,比如用一場惡性事故徹底毀掉人們對自動駕駛汽車的信心。布魯金斯學會與高速公路和汽車安全維權(quán)組織(AHAS)的研究均發(fā)現(xiàn)大部分美國人都對自動駕駛汽車的安全性不放心。布魯金斯學會的調(diào)查顯示,有超過 60% 的受訪者不想乘坐自動駕駛汽車,而 AHAS 的調(diào)查中則有 70% 的受訪者不愿和自動駕駛汽車共享道路。

想解決數(shù)據(jù)集的遺漏問題,就必須用上更好的打標簽方案。Dataset 2 在 Github 的官方頁面表示,自家的打標簽工作靠的是眾包語料注釋公司 Autti,后者用到了機器學習與人工監(jiān)督相結(jié)合的方法。當然,現(xiàn)在我們還無法肯定數(shù)據(jù)集的遺漏是否與這種打標簽的方法有關(guān),未來嚴格的驗證步驟才能給它蓋棺定論。

Roboflow 告訴 Sophos 的 Naked Security,稱公司計劃使用原始數(shù)據(jù)集和數(shù)據(jù)集的固定版本(已在開放源代碼中提供)進行實驗,以查看在訓練各種模型架構(gòu)時問題的嚴重程度。“如果與其他領(lǐng)域(例如醫(yī)學,動物,游戲)的數(shù)據(jù)集相比,Dataset 2 質(zhì)量真是特別差,” Dwyer解釋道?!拔蚁M磥泶蠊緜儗Υ驑撕灐⑶鍧嵑万炞C過程再上點心吧?!?/p>

在一份聲明中,Udacity 強調(diào)稱,作為工具,自家的數(shù)據(jù)集純粹是為了教育目的而生,它們從未暗示過該數(shù)據(jù)集是完美的,或數(shù)據(jù)都打了標簽。此外,雖然 Udacity 在用該數(shù)據(jù)集訓練自家自動駕駛汽車,但幾年來這些車輛均在封閉測試道路行駛,從沒上過公路。

“我們放出這個數(shù)據(jù)集的目的是為了幫助那些剛剛轉(zhuǎn)戰(zhàn)自動駕駛領(lǐng)域的研究人員和工程師。”Udacity 發(fā)言人說道?!昂髞?,類似 Waymo、nuTonomy 和 Voyage 等公司都放出國更新更好的數(shù)據(jù)集,它們才是面向現(xiàn)實世界的。因此,我們這個項目三年都沒更新了。也就是說,濫用這些教育數(shù)據(jù)集不但起不到幫助作用,可能還會造成誤導(dǎo)?!?/p>

雷鋒網(wǎng)&雷鋒網(wǎng)&雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄