丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
國際 正文
發(fā)私信給李尊
發(fā)送

2

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

本文作者: 李尊 2016-07-11 14:13
導(dǎo)語:針對可穿戴設(shè)備收集的數(shù)據(jù)集,深度、卷積、遞歸模型對人類行為進(jìn)行識別哪個表現(xiàn)更好。

導(dǎo)讀:2016國際人工智能聯(lián)合會議(IJCAI2016)于7月9日至7月15日舉行,今年會議聚焦于人類意識的人工智能。本文是IJCAI2016接收論文之一,除了論文詳解之外,我們另外邀請到哈爾濱工業(yè)大學(xué)李衍杰副教授進(jìn)行點評。

深度、卷積、遞歸模型對人類行為進(jìn)行識別(可穿戴設(shè)備數(shù)據(jù))

聯(lián)合編譯:Blake、陳圳、章敏

摘要

普適計算領(lǐng)域中人類活動識別已經(jīng)開始使用深度學(xué)習(xí)來取代以前的依靠手工提取分類的分析技術(shù)。但是由于這些深度技術(shù)都是基于不同的應(yīng)用層面,從識別手勢到區(qū)分跑步、爬樓梯等一系列活動,所以很難對這些問題提出一個普遍適用的方案。在本文中我們認(rèn)真地探索了深度、卷積、遞歸方式對三種代表性的包含運(yùn)用可穿戴感應(yīng)器測得的運(yùn)動數(shù)據(jù)組進(jìn)行的實驗。我們將展示怎樣訓(xùn)練遞歸方法并介紹一種創(chuàng)新性的規(guī)范方式,講述它們?nèi)绾卧诖笮突A(chǔ)數(shù)據(jù)集上實現(xiàn)現(xiàn)有技術(shù)下最好的表現(xiàn)。通過使用隨機(jī)樣本模型進(jìn)行數(shù)千次實驗,我們對每個人類活動識別中的不同任務(wù)中的模型適用性進(jìn)行了探究,對使用fANOVA架構(gòu)的超參數(shù)影響做了探索,為以后想將深度學(xué)習(xí)應(yīng)用到他們的研究中的學(xué)者提供了參考。

1. 引言

過去幾年里深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域中最流行的研究方向。由于這個概念的流行導(dǎo)致它的分支已經(jīng)快速擴(kuò)張,且在學(xué)術(shù)界和商業(yè)界的推動下勢必還會進(jìn)一步推進(jìn)。對于普通人來說,深度學(xué)習(xí)中像Torch7這一類機(jī)器學(xué)習(xí)框架已經(jīng)隨手可及,深度學(xué)習(xí)對一系列的運(yùn)用層面也有相當(dāng)大的影響。

另外一個因為深度學(xué)習(xí)受益的領(lǐng)域是在普適計算方面的人類活動識別(HAR)。在HAR領(lǐng)域中占主導(dǎo)地位的技術(shù)方法包括用身體佩帶的傳感器,手動設(shè)計特征提取程序,以及各種(監(jiān)督)分類方法。在許多情況下這些相對簡單的裝置就足夠了,能夠得到令人印象深刻的識別精度。然而對于更復(fù)雜的行為,例如在醫(yī)學(xué)應(yīng)用中,這種手動調(diào)教方法還是存在顯著挑戰(zhàn)。有些工作還進(jìn)一步進(jìn)行,這也許可以解釋一些明顯的慣性在通過深度學(xué)習(xí)技術(shù)領(lǐng)域的主要技術(shù)途徑。

深度學(xué)習(xí)在普適計算方面的人類識別活動上有機(jī)會造成很大影響。它可以替代缺乏有利于其他領(lǐng)域如語音識別強(qiáng)大的魯棒性,設(shè)計了手動特征提取程序。然而,對于從業(yè)者來說困難的是選擇為他們的應(yīng)用最合適的深度學(xué)習(xí)方法。促進(jìn)深度學(xué)習(xí)幾乎都提供了最佳的系統(tǒng),很少有工作包括在其最優(yōu)參數(shù)是如何被發(fā)現(xiàn)等細(xì)節(jié)。由于只有一個分?jǐn)?shù)報告,平均性能與峰值性能比較結(jié)果仍不清楚。

在本文中,我們運(yùn)用目前最先進(jìn)的深度學(xué)習(xí)方法對普適計算中的人類行為識別中的三種問題進(jìn)行了探索。針對深度、卷積和遞歸模型的訓(xùn)練過程進(jìn)行了詳細(xì)描述,并且我們針對遞歸性網(wǎng)絡(luò)介紹一種創(chuàng)新規(guī)劃方法。在4000多個實驗中,我們探討HAR中每個超參數(shù)對不同的影響,為以后想將深度學(xué)習(xí)應(yīng)用到他們的研究中的學(xué)者提供了參考。在這些實驗的過程中我們發(fā)現(xiàn),遞歸性網(wǎng)絡(luò)實現(xiàn)了目前最佳的表現(xiàn)。

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

圖1 本文中使用的模型

2. 普適計算中的深度學(xué)習(xí)

通過穿戴設(shè)備感應(yīng)器獲得的運(yùn)動數(shù)據(jù)是多元時間序列數(shù)據(jù),這些數(shù)據(jù)都有相關(guān)的高維時空頻率(20Hz-200Hz)。在普適計算領(lǐng)域中分析這些數(shù)據(jù)基本上是在Bulling等人所提出的基礎(chǔ)方法上進(jìn)行的。第一步是把時間序列數(shù)據(jù)分割成相鄰的片段,通常是通過單個特點或者是滑動窗分割技術(shù)。在分割出一系列特性中,在每一幀最有可能包含的是統(tǒng)計特性或者頻率域中的詞干。

目前在普適計算領(lǐng)域中最流行的方法是卷積網(wǎng)絡(luò),許多作者都用它來處理活動識別任務(wù)。更進(jìn)一步的是,卷積網(wǎng)絡(luò)已經(jīng)被用來處理特定領(lǐng)域的問題,像在Autism中檢測常規(guī)運(yùn)動等,它們以及能將其提升到目前最佳的水準(zhǔn)。

3.  針對人類活動識別對深度學(xué)習(xí)進(jìn)行比較

雖然在不同情境的人類行為識別(HAR)方面已經(jīng)有過一系列的研究探索,但是對于深度學(xué)習(xí)的兼容性上仍然缺乏一個系統(tǒng)性的研究。研究者進(jìn)行初步試驗對邊界空間進(jìn)行探索,但通常忽略了細(xì)節(jié)問題,這使得整個過程仍然不明確且難以重復(fù)。相應(yīng)的,像CNNs這樣的單一網(wǎng)絡(luò)在單一應(yīng)用情境下表現(xiàn)良好。然而,單個的良好表現(xiàn)并不能代表整體在普適計算在人類行為識別上的普遍適用性。在限定條件下的探索實驗中,這些結(jié)果有多少代表性?哪些參數(shù)對于最終表現(xiàn)影響最大?實驗者怎么找到那個剛好適合他們研究的參數(shù)?這些問題對于研究學(xué)者們十分重要,但是目前這些問題仍然沒有解答。

在本文中我們首先提出了 在三種代表性數(shù)據(jù)集上 最流行的深度學(xué)習(xí)方法的表現(xiàn)。

這些包括幾個典型的應(yīng)用情境,如控制手勢、重復(fù)動作和帕金森疾病中的醫(yī)學(xué)運(yùn)用。對三種模型的比較如下。為了探索每種方法的適用性我們選取了一系列合理范圍的超參數(shù),同時隨機(jī)模型配置。

為了探討每一種方法的適用性,我們?yōu)槊恳粋€超參數(shù)和隨機(jī)樣本模型配置都選擇了合理的范圍。并且,通過上千次的實驗對它的性能做出報告,同時分析超參數(shù)對每種方法的影響。

3.1深度前饋網(wǎng)絡(luò)(DNN)

我們使用了深度前饋網(wǎng)絡(luò),它相當(dāng)于五個有著softmax-group的隱層的神經(jīng)網(wǎng)絡(luò)。DNN代表網(wǎng)絡(luò)輸入數(shù)據(jù)的一個非線性轉(zhuǎn)換序列。我們遵循規(guī)則,并提出了一個有著N個隱層的網(wǎng)絡(luò)作為N層網(wǎng)絡(luò)。每個隱層都包含有,相同的數(shù)量的單元,對應(yīng)的線性轉(zhuǎn)換,和一個激活函數(shù)(ReLU)。我們使用了兩個不同規(guī)范技術(shù):(i)Dropout:在訓(xùn)練期間,每一個隱層的每個單元都通過一個概率Pdrop設(shè)置成0,而在推斷時,每一個單元的輸出都通過1/pdrop進(jìn)行縮放(所有實驗的dropout率都是固定值0.5)。(ii)Max-in準(zhǔn)則:每個批梯度下降之后,網(wǎng)絡(luò)中每個單元的輸入量都被放縮到一個最大歐式長度din。對于限制方法中超參數(shù)的數(shù)量,我們選擇不去進(jìn)行任何生成的預(yù)訓(xùn)練,并且只依靠監(jiān)督學(xué)習(xí)的方法。輸入到網(wǎng)絡(luò)中的輸入數(shù)據(jù)相當(dāng)于每個移動數(shù)據(jù)的幀。每個幀都由Rd中不同數(shù)量的s樣本組成,也就是簡單地連接到一個單一的向量FtRs*d。圖1(d)中對模型進(jìn)行了說明。

DNN是用批梯度下降的方法進(jìn)行訓(xùn)練的,其中每一個批梯度下降包含64個幀,并且它是根據(jù)測試集中的階級分層進(jìn)行分層的。我們使用隨機(jī)梯度下降的方法,盡量減小陰性似然。

3.2卷積網(wǎng)絡(luò)(CNN)

卷積網(wǎng)絡(luò)的目標(biāo)是在輸入數(shù)據(jù)的模式匹配中引入一個位置,并且確保每個有運(yùn)動數(shù)據(jù)幀的模式的精確位置,的平移不變性(例如,發(fā)生的時間)。我們研究了卷積網(wǎng)絡(luò)的性能,遵循了[Srivastava等人,2014]在結(jié)構(gòu)方面的建議,并且規(guī)范化了技術(shù)。圖1(c)說明CNN的整體結(jié)構(gòu)。每個CNN包含至少一個暫存的卷積層,一個pooling層,和一個完整的連接層——在最高等級Softmax-group之前。暫存的卷積層相當(dāng)于有著nf種不同特征圖——寬度為Kw,的輸入序列的卷積。最后的max-pooling,即是尋找寬度為mw范圍中最大值,并對應(yīng)一個子采樣,向系統(tǒng)引入平移不變性。整個實驗中max-pooling的寬度為固定值2。每個max-pooling層的輸出都通過一個激活函數(shù)進(jìn)行轉(zhuǎn)換。隨后的完全連接的部分有效地對應(yīng)一個DNN并且遵循上述相同的架構(gòu)。

對于規(guī)則化,我們應(yīng)用了每一個max-pooling層/完全連接層的dropout,在整個實驗中可能的dropout Pidrop在i層中是固定值(p1drop=0.1,p2drop=0.25,pi>2drop=0.5)。類似于DNN我們同樣使用了max-in準(zhǔn)則。輸入到CNN的輸入數(shù)據(jù),如DNN中一樣,對應(yīng)移動數(shù)據(jù)的幀

。然而,并非連接不同的輸入維度,矩陣結(jié)構(gòu)被保留(FtRsxRd)。CNN的訓(xùn)練,使用了批梯度下降法(64幀)和隨機(jī)梯度下降法,以盡量減少陰性似然。

3.3遞歸網(wǎng)絡(luò)

為了研究移動數(shù)據(jù)的時序依賴,我們使用了遞歸數(shù)據(jù)網(wǎng)絡(luò),它基于vanilla變型(不包括peephole聯(lián)系)的LSTM單元。當(dāng)網(wǎng)絡(luò)中的一些連接形成定向循環(huán)時,該結(jié)構(gòu)是遞歸的,其中當(dāng)前的時間t會考慮到前面時間t-1的網(wǎng)絡(luò)狀態(tài)。當(dāng)錯誤的衍生物通過遞歸網(wǎng)絡(luò)中的很多層“通過時間”進(jìn)行反向傳播時,LSTM單元用于抑制梯度下降。每一個LSTM單元(聯(lián)合)都會持續(xù)追蹤代表他“記憶”的內(nèi)部狀態(tài)(the constant error carousel)。隨著時間的推移,該單元學(xué)會,輸出,覆蓋,或者基于當(dāng)前的輸出和過去的內(nèi)部狀態(tài)清空他們的內(nèi)存,從而使一個系統(tǒng)保留數(shù)百個時間步長的信息。

我們實現(xiàn)了兩個有特色的LSTM遞歸網(wǎng)絡(luò):(i)深度前饋LSTMs,它包含多種遞歸單元層,并及時聯(lián)系“前饋”(見圖1(a));(ii)雙向LSTMs,它包含了兩個平行的遞歸層,在一個連接了它們在時間步長t時內(nèi)部狀態(tài)的層之后(見圖1(b)),延伸到當(dāng)前時間步長的未來和過去中。

實際上這兩種特色的LSTM,在他們的應(yīng)用要求方面有著很大不同。前饋LSTM聯(lián)系當(dāng)前的時間步長,是基于它看到了過去,并且,在推理時,“未來”還不知道的情況下,它本質(zhì)上適合于實時應(yīng)用。另一方面雙向LSTMs利用了未來和過去的上下文,去解釋時間t時的輸入,這使得它更適合于離線分析場合。

在該工作中,我們應(yīng)用了三種不同設(shè)置的遞歸網(wǎng)絡(luò),每一種都使用adagrad和max-in規(guī)則進(jìn)行訓(xùn)練以便最小化陰性似然。

在第一種情況下,在任何給定的時間t輸入到網(wǎng)絡(luò)的輸入數(shù)據(jù),都對應(yīng)當(dāng)前幀的運(yùn)動數(shù)據(jù),它延伸到一個特定的時間長度,并且維度也被級聯(lián)(如前面的DNN一樣)。我們將該模型稱之為LSTM-F。前饋LSTMs達(dá)到第二種應(yīng)用情況,代表了實時的應(yīng)用,其中提出的每一個移動數(shù)據(jù)采樣都是針對于他們記錄序列中的網(wǎng)絡(luò),稱之為LSTM-S。最后場景中,對于同樣的樣本到樣本預(yù)測問題,應(yīng)用了雙向LSTMs。我稱之為LSTM-S。

3.4對于HAR訓(xùn)練RNNs

RNNs相同的應(yīng)用,包括演講識別和自然語言處理。在這種設(shè)定下,輸入的上下文(例如,一個單詞)受限于它周圍的實體(例如,句子,段落)。訓(xùn)練RNNs時,通常把上下文的實體看成一個整體,例如在一個完整的句子中訓(xùn)練RNN。

在HAR中,移動數(shù)據(jù)個體樣本的上下文沒有得到很好的定義,至少,超越了鄰近樣本之間的直接關(guān)系,并且好像還取決于移動的類型和它更廣泛的行為情景。這是該領(lǐng)域眾所周知的事,并且它會影響選擇滑動窗口分割的窗口長度。

對于建立用于訓(xùn)練RNN的b批梯度下降,我們在開始和結(jié)束訓(xùn)練集中,初始化了多個位置(pi)b。對于建立批梯度下降,我們采用了L樣本跟隨(pi)b中的每個位置,并且增加L步長的(pi)b,它可能纏繞到該序列結(jié)束。我們發(fā)現(xiàn)隨機(jī)初始化位置以避免梯度振蕩是非常重要的。當(dāng)這個方法保留對RNN提出的樣品排序時,它不允許每一個批梯度下降層,都關(guān)于類-分布。

4.實驗

實驗中研究的不同種類的超參數(shù)在表1中列出。最后一列表示了每個數(shù)據(jù)集采樣的參數(shù)配置的數(shù)目,它們被挑選出來代表一個相等量的計算時間。我們在三個代表了HAR典型問題的基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗(下文進(jìn)行描述)。實驗是在一個有著3個GPUs (NVidia GTX980 Ti)的機(jī)器上進(jìn)行,其中除了最大的網(wǎng)絡(luò),兩個模型配置都在不同的GPU上運(yùn)行。

在每次訓(xùn)練之后,我們都在驗證集中進(jìn)行性能評估。每個模型都訓(xùn)練了至少30次,其中最大的是300次。訓(xùn)練30次之后,如果在10次后驗證性能沒有得到提升,便終止訓(xùn)練。我們選擇了顯示最優(yōu)驗證集性能的次數(shù),并且將對應(yīng)的模型應(yīng)用到測試集中。

4.1數(shù)據(jù)集

實驗中,我們研究了三個在普適計算中具有代表性的HAR數(shù)據(jù)集。每一個數(shù)據(jù)集都對應(yīng)一個HAR的應(yīng)用。第一個數(shù)據(jù)集,Opportunity,它包含如開門和關(guān)門的操控手勢,這種手勢持續(xù)時間段,而且是不重復(fù)的。第二個數(shù)據(jù)集,PAMAP2,它包含了典型的系統(tǒng)特征——長時間和重復(fù)的物理運(yùn)動,這其目的是描述能源支出。第三個數(shù)據(jù)集,Daphnet Gait,對應(yīng)一個醫(yī)療應(yīng)用,它參與展現(xiàn)了一個典型帕金森氏病中的運(yùn)動并發(fā)癥,眾所周知該疾病有著非常大的整體變化性。接下來我們詳細(xì)的描述每個數(shù)據(jù)集。

Opportunity數(shù)據(jù)集(Opp)

Chavarriaga等人,用4個參與者——被要求進(jìn)行相同的廚房活動,身上傳感器的數(shù)據(jù)組成了注釋記錄。數(shù)據(jù)是在頻率為30Hz的情況下,從人體12地方記錄到的,并且用了18個中級手勢進(jìn)行了注釋(例如,開門/關(guān)門)。每個對象,都從五個不同的方式進(jìn)行了數(shù)據(jù)記錄。我們使用的子集,沒有丟失任何的數(shù)據(jù)包——包括加速的記錄,如抬手臂,放回,和腳部完整的IMU數(shù)據(jù)。最終數(shù)據(jù)是79維度的。我們使用了對象1中的第2關(guān)作為我們的驗證集,并且通過使用我們測試集中對象2和3的第4和第5關(guān),復(fù)制最流行的識別挑戰(zhàn)。剩余的數(shù)據(jù)被用于訓(xùn)練。對于幀到幀的分析,我們創(chuàng)造了持續(xù)時間為1秒和重疊部分為50%的滑動窗口。最終的訓(xùn)練集包含大概650k的樣本(43k的幀)。

PAMAP2數(shù)據(jù)集

Reiss和Strickere,在被要求進(jìn)行12項日常生活的9個參與者中,進(jìn)行了數(shù)據(jù)記錄,包括家庭活動和各種各樣的活動(北歐散步,踢足球,等)。加速度計,陀螺儀,磁力計,溫度,心率數(shù)據(jù)都是由位于手,胸部和腳踝的慣性測量單位記錄的(總共超過了10個小時)。最終的數(shù)據(jù)是52維度的。我們在驗證集中使用了對象5的第1和第2關(guān),在測試集中使用對象6的第1和第2關(guān)。剩余的數(shù)據(jù)用于訓(xùn)練。在分析中,我們向下采樣計算器到33.3Hz,以便與Opportunity數(shù)據(jù)集有一個時間分辨率的比較。對于從幀到幀分析,我們用一個5.12秒的非重疊滑動窗口——它的相鄰窗口之間持續(xù)時間為一秒(78%重疊),復(fù)制以前的工作。該訓(xùn)練集包括大概473k的樣本(14k的幀)。

Daphnet Gait 數(shù)據(jù)集

(DG)Bachlin等人記錄了帕金森?。≒D)對于10個參與者的影響,這意味著開展活動,可能會導(dǎo)致步態(tài)凍結(jié)。凍結(jié)是帕金森病常見的運(yùn)動并發(fā)癥,它會影響個體的移動,例如散步。我們的目的是檢測這些凍結(jié)的事件,以便通知未來情境激勵系統(tǒng)。這代表一個兩級的識別問題。加速器數(shù)據(jù)是從腳踝以上,膝蓋以上和軀干部位進(jìn)行記錄的。最終的數(shù)據(jù)是9維的。我們在驗證集中使用對象9的第1關(guān),在測試集中使用了對象2的第1和第2關(guān),并且使用剩余的數(shù)據(jù)進(jìn)行訓(xùn)練。據(jù)我們分析,我們向下采樣加速器數(shù)據(jù)到32Hz,對于幀到幀的分析,我們創(chuàng)造了持續(xù)1秒且重疊為50%的滑動窗口。整個訓(xùn)練集包含了大概470k的樣本(30k的幀)。

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

表1:模式的超參數(shù)和實驗的數(shù)值范圍

通過逐幀分析,我們創(chuàng)造了持續(xù)時間為1秒且重疊部分為50%的滑動窗口。訓(xùn)練集大約包括470K的樣本(30k幀)。

4.2超參數(shù)的影響

為評價所有實驗中每一個參數(shù)的影響,我們運(yùn)用fANOVA框架分析方法。fANOVA會決定每一個超參數(shù)對于網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)的影響程度。它會就模式的表現(xiàn)建立一個預(yù)測模式,并作為超參數(shù)的函數(shù)。這一非線性模式隨即被分解成為超參數(shù)的相互作用函數(shù)。fANOVA曾在遞歸函數(shù)中進(jìn)行超函數(shù)探索。

對于探索者來說,知道模式的哪一方面對表現(xiàn)的影響最大是至關(guān)重要的。我們將模式的參數(shù)分成三類:(1)學(xué)習(xí)型參數(shù),控制學(xué)習(xí)過程;(2)規(guī)則型參數(shù),限制模式的建模能力以防止過度重合;(3)構(gòu)建型參數(shù),影響模式的結(jié)構(gòu)。每一個超參數(shù)都不一樣,我們估計歸因于參數(shù)類別和不同等級參數(shù)之間的相互作用。

4.3 表現(xiàn)標(biāo)準(zhǔn)

由于在本次研究中所使用的數(shù)據(jù)集有偏重,所以要求表現(xiàn)標(biāo)準(zhǔn)的類別分布是獨(dú)立的。我們傾向于評估f1數(shù)值的平均值:

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

相關(guān)研究曾使用加權(quán)f1分值作為主要表現(xiàn)標(biāo)準(zhǔn)。為把我們的結(jié)果和其他先進(jìn)方法進(jìn)行比較,我們會對加權(quán)f1分值進(jìn)行評估:

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

Nc表示的是在c等級之內(nèi)的樣本數(shù)量,Ntoatal代表是樣本總數(shù)量。

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

表2:每一模式和數(shù)據(jù)集所獲得的最好結(jié)果,和一些比較標(biāo)準(zhǔn)。變量增量(表格的下半部分)指代的是所有實驗中上等和中等表現(xiàn)之間的絕對差別。

5.結(jié)果

結(jié)果在圖2可見。圖(a-c)顯示的是主要表現(xiàn)標(biāo)準(zhǔn)在每一個數(shù)據(jù)中的累積分布。圖(d)通過fANOVA 解釋了每一超參數(shù)類型的影響。

總的來說,我們觀察了模式在OPP和DG上的優(yōu)秀表現(xiàn)分布,其中在(b-LSTM-S)表現(xiàn)最好f1的平均值超過了15%,在OPP中表現(xiàn)最差(DG上的平均值為12%)(見圖2)。在PAMAP2上的差別較小,但也有7%。在OPP上表現(xiàn)最好的方法超過目前的先進(jìn)方法,在f1的平均值上超過4%(加權(quán)f1值超過1%)。CNN模式發(fā)現(xiàn)此項研究比之前結(jié)果都要好,因為f1的平均值和加權(quán)平均值都超過5%(見圖2)。遞歸方法表現(xiàn)良好,它能就實驗樣品進(jìn)行建模,能對HAR進(jìn)行新(實時)運(yùn)用,因為它們能緩解分割時間序列數(shù)據(jù)的壓力。

深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?

圖2:(a)-(c)每一個數(shù)據(jù)集識別表現(xiàn)的累積分布;(d)從fANOVA分析得出的結(jié)果,并解釋超參數(shù)的種類對于識別表現(xiàn)的影響(見表1)。

在本次所研究的模式中,表現(xiàn)得分的分布不同。CNNs顯示最有特色的表現(xiàn):模型配置的一小部分表現(xiàn)較差(例如,在PAMAP的得分為20%),而其余配置在表現(xiàn)上的差別卻不大。在PAMAP2中,例如,最優(yōu)表現(xiàn)和中等表現(xiàn)之間的f1平均值只相差7%(見表2)。DNNs顯示在OPP上所有方法的最優(yōu)和中等表現(xiàn)相差最大值為35。7%。兩個前置RNNs模式(LSTM-F,LSTM-S)在不同數(shù)據(jù)集上表現(xiàn)相似。尤其在PAMAP2和OPP上進(jìn)行探索的配置識別表現(xiàn)非凡。

超參數(shù)種類對于識別表現(xiàn)影響的解釋在圖2(d)中可見。有趣的是,我們觀察的是CNN中,參數(shù)的最一致影響。與我們期待相反的是,圍繞學(xué)習(xí)過程(見表1)的參數(shù)對于表現(xiàn)的影響最大。我們希望對于這一模式而言,擁有多樣選擇結(jié)構(gòu)變體影響會更大。對于DNNs,我們不會觀察任意超參數(shù)種類的系統(tǒng)影響。在PAMAP2中,準(zhǔn)確的學(xué)習(xí)參數(shù)會是最關(guān)鍵的。在OPP中,是模式結(jié)構(gòu)最關(guān)鍵。十分有趣的是,我們觀察到網(wǎng)絡(luò)結(jié)構(gòu)較淺的模式比深度網(wǎng)絡(luò)表現(xiàn)更好。在這一網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)中有下降趨勢且?guī)в谐^3層的隱藏層。這可能與我們僅僅只依靠監(jiān)督進(jìn)行訓(xùn)練有關(guān),因為生成訓(xùn)練能提深度網(wǎng)絡(luò)的表現(xiàn)。

在OPP中,基于框架的RNN(LSTM-F)的表現(xiàn)受本次研究中的結(jié)轉(zhuǎn)概率影響。由于經(jīng)常保持內(nèi)在狀態(tài)或是忘記內(nèi)部狀態(tài),這都會導(dǎo)致表現(xiàn)結(jié)果較差。我們發(fā)現(xiàn)0.5的Pcarry在大多數(shù)情況下都表現(xiàn)良好。我們的發(fā)現(xiàn)值得進(jìn)行對轉(zhuǎn)結(jié)時間表進(jìn)行更加深入的研究,這會提高LSTM的表現(xiàn)。

基于樣本實驗的前向LSTMs(LSTM-S)的研究結(jié)果證明了之前的發(fā)現(xiàn),因為對于這種模式其學(xué)習(xí)率是至關(guān)重要的參數(shù)。然而,對于雙向LSTM(b-LSTM-S),我們發(fā)現(xiàn)每一層的單元數(shù)對表現(xiàn)影響重大,所以實驗者應(yīng)重點關(guān)注此類參數(shù)。

6.討論

在本次研究中,我們探索了先進(jìn)深度學(xué)習(xí)方法通過使用便攜式傳感器對人類活動識別的表現(xiàn)。我們介紹了如何在此設(shè)定中訓(xùn)練遞歸方法并引入新穎的規(guī)則化方法。在數(shù)千次實驗中,我們用隨機(jī)選擇取樣的參數(shù)對模式的表現(xiàn)進(jìn)行評估。發(fā)現(xiàn)在Opportunity中雙向LSTMs比目前先進(jìn)的方法表現(xiàn)要好,基準(zhǔn)數(shù)據(jù)庫要更大,利潤更可關(guān)。

但是對于研究者而言有趣的,不是每一個模式的峰值性能,而是參數(shù)在適應(yīng)不同HAR任務(wù)時的探索和理解過程。對于時間較短但是按照時間順序發(fā)生的時間理解中,遞歸網(wǎng)絡(luò)模式比卷積模式表現(xiàn)得更好。因為遞歸模式有較好的理解語境能力。對于雙向RNNs,我們發(fā)現(xiàn)在所有的數(shù)據(jù)集中,每一層的單元數(shù)目對表現(xiàn)的影響都很大。對于持續(xù)時間長且是重復(fù)發(fā)生的動作,例如,走路,跑步;我們推薦使用CNNs模式。在此情景中平均表現(xiàn)能讓研究者更容易發(fā)現(xiàn)一個合適的配置,盡管RNNs模式和CNNs 模式表現(xiàn)差不多,甚至是RNNs有時表現(xiàn)的更好。我們強(qiáng)烈建議在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)之前要開始探索學(xué)習(xí)率,因為在我們的試驗中發(fā)現(xiàn)學(xué)習(xí)率對表現(xiàn)的影響最大。

我們發(fā)現(xiàn)在不同的參數(shù)設(shè)置下,模式的識別表現(xiàn)都不一樣。Regular DNNs模式對于研究者來說是最可行的方法,因為它需要進(jìn)行大量的參數(shù)探索,并且在優(yōu)良表現(xiàn)和中等表現(xiàn)之間的跨度較大。所以研究者不應(yīng)舍棄在開始時識別表現(xiàn)較差的模式。更復(fù)雜的方法,例如,CNNs或是RNNs在表現(xiàn)上的差別較小,所以更可能發(fā)現(xiàn)表現(xiàn)較好的參數(shù)并且迭代次數(shù)也少。

點評

這篇文章主要針對人類行為識別問題,介紹并比較了三類不同的模型,包括DNN,CNN和RNN,并運(yùn)用可穿戴傳感器的運(yùn)動數(shù)據(jù)和人類運(yùn)動識別中的不同任務(wù)(如開關(guān)門、帕金森病等的運(yùn)動情況)對三類模型的適用性進(jìn)行了比較研究。

對于可穿戴設(shè)備收集得數(shù)據(jù)集,可穿戴設(shè)備主要以加速度計、陀螺儀等傳感器測得數(shù)據(jù),精度會更高,但其應(yīng)用也就有了限制,必須在可以加裝這些傳感器的場景才行。音視頻就更為一般性些,只需要有話筒和攝像頭,不一定加在被監(jiān)控對象身上。

文中提到的實驗是深度學(xué)習(xí)在PD檢測方面的應(yīng)用,用以判斷病情。

via IJCAI 2016

PS : 本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說