丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

本文作者: 汪思穎 2017-11-10 14:59
導語:數(shù)據(jù)規(guī)模、數(shù)據(jù)質量等與深度學習算法之間的關系

雷鋒網(wǎng) AI科級評論按,深度模型在機器學習很多領域都取得了巨大成功,但也對算法的原材料訓練數(shù)據(jù)提出了更多的要求。對于研發(fā)高水平的算法,數(shù)據(jù)的高質量采集、清洗、處理等等對算法效果會有直接影響。

在近期雷鋒網(wǎng) AI研習社的線上分享會,來自 BasicFinder 標注平臺的數(shù)據(jù)科學家吳昊為大家介紹了數(shù)據(jù)規(guī)模、數(shù)據(jù)質量等與深度學習算法之間的關系,以及為算法做數(shù)據(jù)準備的一些經(jīng)驗。

吳昊,本科畢業(yè)于上海交通大學,碩士畢業(yè)于紐約大學,現(xiàn)任 BasicFinder 標注平臺數(shù)據(jù)科學家,專注于數(shù)據(jù)眾包策略研究、深度學習模型數(shù)據(jù)采集與標記方案咨詢及優(yōu)化。

分享內(nèi)容:

大家好,我叫吳昊。本科畢業(yè)于上海交通大學,研究生畢業(yè)于紐約大學。我之前做過兩年左右的算法研究工作,我們公司 BasicFinder 平臺主要提供一些數(shù)據(jù)方面的服務,包括采集、標注、清洗、其它別的加工等等。我今天分享的主題是AI數(shù)據(jù)面面觀。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

下面是今天分享的目錄,分為四部分:

  • 數(shù)據(jù)規(guī)模

  • 數(shù)據(jù)質量

  • 無監(jiān)督學習與遷移學習

  • 做算法研發(fā)在數(shù)據(jù)準備方面的注意事項

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

數(shù)據(jù)規(guī)模

先看數(shù)據(jù)規(guī)模,數(shù)據(jù)規(guī)模與算法模型的容量其實是比較相關的。算法模型的容量越大,就意味著算法能表示相對來說更復雜的關系。

當數(shù)據(jù)規(guī)模相對過大時,在訓練過程中容易產(chǎn)生欠學習(underfitting)。另一方面,在數(shù)據(jù)規(guī)模相對過小的情況下,就會產(chǎn)生過學習(overfitting)。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

近年來流行的深度學習模型可以擁有非常大的容量,模型中普遍用的神經(jīng)網(wǎng)絡算法,層數(shù)可以增加,每層神經(jīng)元個數(shù)可以增加,那么模型的表達能力也會增加。下圖是一個例子。此外學術界也會做一些新的研究來增加模型的表達能力。另一方面得益于GPU,比較復雜模型的訓練也會比以前快很多。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

現(xiàn)在有一個問題,數(shù)據(jù)更多的話效果就會更好,那么究竟有多好呢?Google的一遍論文解決了這個問題。 

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

這個數(shù)據(jù)集是ImageNet的兩百多倍。隨著數(shù)據(jù)集里樣本數(shù)量的增多,在COCO上的結果比用之前的數(shù)據(jù)集至少高出三個點,而在算法的其他方面都沒有太多變化??梢钥吹綌?shù)據(jù)規(guī)模的增大對算法的效果提升還是比較明顯的。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

在工業(yè)界,數(shù)據(jù)規(guī)模更容易成為算法研發(fā)的關鍵因素。如果有更多的數(shù)據(jù),就可以使用容量更大、更復雜的模型,得到效果更好的算法。當數(shù)據(jù)大到一定程度,數(shù)據(jù)和算法之間可以進行反復迭代,形成壁壘,為公司提供競爭力。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

數(shù)據(jù)質量

數(shù)據(jù)質量會影響算法效果。

對于質量一般的數(shù)據(jù),比如經(jīng)過爬蟲得來的數(shù)據(jù),經(jīng)過清洗、處理后,算法效果會有明顯提升。如果數(shù)據(jù)質量已經(jīng)很高了,再去提升數(shù)據(jù)質量,算法效果的提升比較有限。

另外還要考慮到成本和收益的權衡問題:想獲得質量更高的數(shù)據(jù),成本也會更高。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

接下來講一下對數(shù)據(jù)質量的評估。數(shù)據(jù)質量評估主要包括兩個方面,一是原始采集數(shù)據(jù)質量,二是數(shù)據(jù)標注質量。

下面是對原始采集數(shù)據(jù)質量的評估:

  • 圖像、視頻:分辨率,清晰度,光照,色彩等

  • 語音:清晰度,背景音等

  • 文本:是否自然語言,是否專業(yè),與主題相關性等

下面是對數(shù)據(jù)標注質量的評估:

  • 標注正確率(類別數(shù)據(jù))

  • 標注精確度(坐標、時間點、個數(shù)、文字等)

  • 標注完備性(是否漏,是否重復)

  • 標注一致性(前后規(guī)則是否一致)

人工標記的大規(guī)模數(shù)據(jù)一般都會含有噪聲,一些經(jīng)典數(shù)據(jù)集也含有噪聲,例如人臉LFW、MS COCO等,這是不可避免的,不過在可以接受的限度內(nèi)就行。 

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

無監(jiān)督學習與遷移學習

接下來談一下無監(jiān)督學習與遷移學習,遷移學習已經(jīng)有一個比較大的數(shù)據(jù)集作為基礎了,再用人工標注一小部分新數(shù)據(jù)。

對于無監(jiān)督學習,基本上不需要人工標注,主要是學習數(shù)據(jù)本身的分布特性。比如說聚類算法,就是試圖找出數(shù)據(jù)集中分布的中心,所以不太需要人工標注。

目前工業(yè)界相對來說比較好的結果還是通過監(jiān)督學習而來,很多都需要大量人工標注的數(shù)據(jù)。無監(jiān)督學習和遷移學習在未來還是有待學術界研究,以望更大的突破。另外,在未來數(shù)據(jù)規(guī)模進一步提升的情況下,無監(jiān)督學習和遷移學習會有更多的用武之地。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

數(shù)據(jù)準備方面的一些經(jīng)驗

最后介紹我們在開展業(yè)務中的一些經(jīng)驗。

數(shù)據(jù)準備最開始是數(shù)據(jù)獲取,數(shù)據(jù)的獲取也分為幾種情況,比較常見的是互聯(lián)網(wǎng)公開獲?。ü_數(shù)據(jù)集、爬蟲等),除此之外還有專業(yè)數(shù)據(jù)采集。在專業(yè)數(shù)據(jù)采集時,需要考慮采集方式:一是采集內(nèi)容、采集規(guī)模、預算;二是采集過程要盡量與實際使用場景相一致;三是要考慮對數(shù)據(jù)集的要求,比如多樣性;四是采集是否涉及隱私、個人權利如肖像權、著作權等。

最后還有采集時間的要求。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

然后是數(shù)據(jù)清洗。采集來的數(shù)據(jù)很多都需要清洗,例如爬蟲、監(jiān)控視頻等。

數(shù)據(jù)清洗之后就要進行數(shù)據(jù)標注,標注的規(guī)則要盡可能地詳盡、清楚,需要給出文檔和例子。專業(yè)的標注過程,一般有試標階段,這個階段需要詳細了解并確定需求。此外,在試標和正式標注過程中也會遇到不確定的情況,需要及時進行溝通,否則可能會影響到整體標注質量。

對于數(shù)據(jù)標注的方式,以及最終的輸出格式,都需要算法研發(fā)人員來制定,有可能的話還是盡量使用常見的方式和格式。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

數(shù)據(jù)標記完之后就是數(shù)據(jù)審查。做審查主要參考對數(shù)據(jù)質量的要求(正確率、精確度、完備性、一致性等)。審查方式有抽查、排查特殊指標、利用某些特征排查異常值這幾種。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

結論如下:對于算法來說,數(shù)據(jù)越多越好、越廣越好、越準越好。在現(xiàn)有的情況下,監(jiān)督學習的效果優(yōu)于無監(jiān)督學習/遷移學習。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

視頻:

雷鋒網(wǎng) AI科技評論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

BasicFinder 標注平臺數(shù)據(jù)科學家吳昊:從數(shù)據(jù)采集與標記行業(yè)看數(shù)據(jù)與深度學習之關系(分享總結)

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說