丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

小數(shù)據(jù)處理的 7 個技巧

本文作者: skura 2019-09-07 19:23
導語:在沒有最基本的數(shù)據(jù)的情況下,我們?nèi)绾尾拍茉突万炞C機器學習的想法?

雷鋒網(wǎng) AI 科技評論按,本文作者是 Kanda 的機器學習工程師 Daniel Rothmann,他對一切具有變革性的事物都感興趣,這里是他在和客戶合作的過程中總結(jié)出的小數(shù)據(jù)處理方法。雷鋒網(wǎng)整理。

我們經(jīng)常聽說大數(shù)據(jù)是構(gòu)建成功的機器學習項目的關鍵。這里有一個大問題:許多組織沒有你需要的這么多數(shù)據(jù)。

在沒有最基本的數(shù)據(jù)的情況下,我們?nèi)绾尾拍茉突万炞C機器學習的想法?當資源稀缺時,我們?nèi)绾斡行У孬@取和利用數(shù)據(jù)創(chuàng)造價值?

在我的工作場所,我們?yōu)榭蛻羯a(chǎn)了許多功能原型。因此,我經(jīng)常需要使用小數(shù)據(jù)。在本文中,我將分享 7 個改進使用小數(shù)據(jù)集進行原型設計結(jié)果的小技巧。

小數(shù)據(jù)處理的 7 個技巧

1 .認識到你的模型不能很好地泛化

這應該是第一步。你正在構(gòu)建一個模型,它是建立在宇宙的一小部分知識之上的,而這應該是唯一一個可以期望它能很好地工作的情境。

如果你正在建立一個基于室內(nèi)照片選擇的計算機視覺原型,不要期望它在室外工作得很好。如果你有一個基于聊天室的語言模型,不要指望它適用于幻想小說。

確保你的經(jīng)理或客戶理解這一點。這樣,每個人都可以根據(jù)你的模型應該提供的結(jié)果,調(diào)整實際期望。它還創(chuàng)造了一個機會來提出一個新的有用的關鍵指標,以量化原型范圍內(nèi)外的模型性能。

小數(shù)據(jù)處理的 7 個技巧

2 .建立良好的數(shù)據(jù)基礎架構(gòu)

在許多情況下,客戶機沒有你需要的數(shù)據(jù),公共數(shù)據(jù)也不合適。如果原型的一部分需要收集和標記新數(shù)據(jù),請確保基礎架構(gòu),盡可能減少摩擦。

你要確保數(shù)據(jù)標簽對技術和非技術人員來說都是非常容易的。我們已經(jīng)開始使用 Prodigy,我認為這是一個很好的工具:既可訪問又可擴展。根據(jù)項目的大小,你可能還需要設置一個自動數(shù)據(jù)接收功能,它可以接收新數(shù)據(jù)并自動將其輸入到標簽系統(tǒng)。

如果將新數(shù)據(jù)導入系統(tǒng)既快捷又簡單,你將獲得更多數(shù)據(jù)。

小數(shù)據(jù)處理的 7 個技巧

3 .做一些數(shù)據(jù)擴充

你通??梢酝ㄟ^增加所擁有的數(shù)據(jù)來擴展數(shù)據(jù)集。但這只是對數(shù)據(jù)進行細微更改,它不應顯著地改變模型的輸出。例如,如果旋轉(zhuǎn) 40 度,貓的圖像仍然是貓的圖像。

在大多數(shù)情況下,增強技術允許你生成更多的「半唯一」數(shù)據(jù)點來訓練你的模型。首先,你可以嘗試在你的數(shù)據(jù)中加入少量的高斯噪聲。

對于計算機視覺,有許多簡潔的方法來增強圖像。我對 Albumentations 庫有過豐富的使用經(jīng)驗,它可以在保持標簽不受損的同時進行許多有用的圖像轉(zhuǎn)換。

小數(shù)據(jù)處理的 7 個技巧

圖片來源:Github 上的 Albumentations

許多人認為另一種有用的增強技術是「Mixup」。這種技術實際上是將兩個輸入圖像混合在一起并組合它們的標簽。

小數(shù)據(jù)處理的 7 個技巧

圖片由 Cecilia Summers 和 Michael J.Dinneen 拍攝

在擴充其他輸入數(shù)據(jù)類型時,需要考慮哪些轉(zhuǎn)換會損害標簽,哪些不會。

小數(shù)據(jù)處理的 7 個技巧

4. 生成一些合成數(shù)據(jù)

如果你已經(jīng)用盡了增加真實數(shù)據(jù)的方法,你可以開始考慮創(chuàng)建一些假數(shù)據(jù)。生成合成數(shù)據(jù)也是一種很好的方法,它可以用來覆蓋一些實際數(shù)據(jù)集中不會出現(xiàn)的邊緣情況。

例如,許多機器人強化學習系統(tǒng)在部署到真正的機器人之前,都是在模擬的 3D 環(huán)境中進行訓練的。對于圖像識別系統(tǒng),你可以類似地構(gòu)建 3D 場景,它可以提供數(shù)千個新的數(shù)據(jù)點。

小數(shù)據(jù)處理的 7 個技巧

15 個模擬的 Dactyl 并行訓練實例

創(chuàng)建合成數(shù)據(jù)有許多方法。在 Kanda,我們正在開發(fā)一個基于轉(zhuǎn)盤的解決方案來創(chuàng)建用于對象檢測的數(shù)據(jù)。如果你有非常高的數(shù)據(jù)需求,你可以考慮使用通用的生成對抗網(wǎng)絡來創(chuàng)建合成數(shù)據(jù)。要知道 GAN 是出了名的難以訓練,所以你要確保它是值得的。

小數(shù)據(jù)處理的 7 個技巧

NVIDIAs GauGAN

有時你可以結(jié)合使用這些方法:蘋果有一個非常聰明的方法,用一個 GAN 來處理 3D 模型人臉的圖像,使其看起來更逼真。如果有時間的話,可以使用這個擴展數(shù)據(jù)集的絕妙技術。

小數(shù)據(jù)處理的 7 個技巧

5. 小心「幸運的分割」

在訓練機器學習模型時,通常將數(shù)據(jù)集按一定比例隨機分割成訓練集和測試集。通常情況下,這很好。但是,在處理小數(shù)據(jù)集時,由于訓練示例數(shù)量較少,因此噪音風險較高。

在這種情況下,你可能會意外地得到一個幸運的分割:一個特定的數(shù)據(jù)集分割,在這個分割中,你的模型將很好地執(zhí)行并在測試集中效果很好。然而,在現(xiàn)實中,這可能僅僅是因為測試集中沒有困難的例子(巧合)。

在這種情況下,k-fold 交叉驗證是一個更好的選擇。本質(zhì)上,你將數(shù)據(jù)集拆分為 k 個「folds」,并為每個 k 訓練一個新的模型,其中一個 fold 用于測試集,其余的用于訓練。這可以控制你看到的測試結(jié)果,而不僅僅是由于幸運(或不幸運)的拆分。

小數(shù)據(jù)處理的 7 個技巧

6 .使用遷移學習

如果你使用的是某種標準化的數(shù)據(jù)格式,如文本、圖像、視頻或聲音,那么你可以使用其他人在這些域中用遷移學習所做的所有先前工作。這就像站在巨人的肩膀上。

當你進行遷移學習時,你會采用其他人建立的模型(通常,「其他人」是 google、Facebook 或一些主要的大學),并根據(jù)你的特殊需求對它們進行微調(diào)。

遷移學習之所以有效,是因為大多數(shù)與語言、圖像或聲音有關的任務都具有許多共同的特征。例如,對于計算機視覺來說,它可能是檢測某些類型的形狀、顏色或圖案。

最近,我為客戶開發(fā)了一個目標檢測原型,這個客戶對精度的要求非常高。我可以通過微調(diào)一個 MobileNet 單鏡頭探測器來大大加快開發(fā)速度,該探測器已經(jīng)在 google 的開放式圖像 v4 數(shù)據(jù)集(約 900 萬張標簽圖像)上接受過訓練。. 經(jīng)過一天的訓練,我能夠使用大約 1500 張標記圖像生成一個相當健壯的目標檢測模型。

小數(shù)據(jù)處理的 7 個技巧

7. 試一試「weak learners」

有時候,你只需要面對這樣一個事實:你沒有足夠的數(shù)據(jù)去做任何想做的事情。幸運的是,有許多傳統(tǒng)的機器學習算法,你可以考慮使用這些算法,它們對數(shù)據(jù)集的大小不太敏感。

當數(shù)據(jù)集較小,數(shù)據(jù)點維數(shù)較高時,支持向量機等算法是一種很好的選擇。

不幸的是,這些算法并不總是像最先進的方法那樣精確。這就是他們之所以被稱為「weak learners」的原因,至少與高度參數(shù)化的神經(jīng)網(wǎng)絡相比是如此。

提高性能的一種方法是將這些「weak learners」(這可能是一組支持向量機或決策樹)組合在一起,以便它們「協(xié)同工作」生成預測。這就是組合學習的全部意義。

via: https://www.kdnuggets.com/2019/07/7-tips-dealing-small-data.html

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

小數(shù)據(jù)處理的 7 個技巧

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說