2
本文作者: 李尊 | 2016-07-11 14:13 |
導讀:2016國際人工智能聯(lián)合會議(IJCAI2016)于7月9日至7月15日舉行,今年會議聚焦于人類意識的人工智能。本文是IJCAI2016接收論文之一,除了論文詳解之外,我們另外邀請到哈爾濱工業(yè)大學李衍杰副教授進行點評。
聯(lián)合編譯:Blake、陳圳、章敏
摘要
普適計算領域中人類活動識別已經(jīng)開始使用深度學習來取代以前的依靠手工提取分類的分析技術。但是由于這些深度技術都是基于不同的應用層面,從識別手勢到區(qū)分跑步、爬樓梯等一系列活動,所以很難對這些問題提出一個普遍適用的方案。在本文中我們認真地探索了深度、卷積、遞歸方式對三種代表性的包含運用可穿戴感應器測得的運動數(shù)據(jù)組進行的實驗。我們將展示怎樣訓練遞歸方法并介紹一種創(chuàng)新性的規(guī)范方式,講述它們?nèi)绾卧诖笮突A數(shù)據(jù)集上實現(xiàn)現(xiàn)有技術下最好的表現(xiàn)。通過使用隨機樣本模型進行數(shù)千次實驗,我們對每個人類活動識別中的不同任務中的模型適用性進行了探究,對使用fANOVA架構的超參數(shù)影響做了探索,為以后想將深度學習應用到他們的研究中的學者提供了參考。
1. 引言
過去幾年里深度學習已經(jīng)成為機器學習領域中最流行的研究方向。由于這個概念的流行導致它的分支已經(jīng)快速擴張,且在學術界和商業(yè)界的推動下勢必還會進一步推進。對于普通人來說,深度學習中像Torch7這一類機器學習框架已經(jīng)隨手可及,深度學習對一系列的運用層面也有相當大的影響。
另外一個因為深度學習受益的領域是在普適計算方面的人類活動識別(HAR)。在HAR領域中占主導地位的技術方法包括用身體佩帶的傳感器,手動設計特征提取程序,以及各種(監(jiān)督)分類方法。在許多情況下這些相對簡單的裝置就足夠了,能夠得到令人印象深刻的識別精度。然而對于更復雜的行為,例如在醫(yī)學應用中,這種手動調(diào)教方法還是存在顯著挑戰(zhàn)。有些工作還進一步進行,這也許可以解釋一些明顯的慣性在通過深度學習技術領域的主要技術途徑。
深度學習在普適計算方面的人類識別活動上有機會造成很大影響。它可以替代缺乏有利于其他領域如語音識別強大的魯棒性,設計了手動特征提取程序。然而,對于從業(yè)者來說困難的是選擇為他們的應用最合適的深度學習方法。促進深度學習幾乎都提供了最佳的系統(tǒng),很少有工作包括在其最優(yōu)參數(shù)是如何被發(fā)現(xiàn)等細節(jié)。由于只有一個分數(shù)報告,平均性能與峰值性能比較結果仍不清楚。
在本文中,我們運用目前最先進的深度學習方法對普適計算中的人類行為識別中的三種問題進行了探索。針對深度、卷積和遞歸模型的訓練過程進行了詳細描述,并且我們針對遞歸性網(wǎng)絡介紹一種創(chuàng)新規(guī)劃方法。在4000多個實驗中,我們探討HAR中每個超參數(shù)對不同的影響,為以后想將深度學習應用到他們的研究中的學者提供了參考。在這些實驗的過程中我們發(fā)現(xiàn),遞歸性網(wǎng)絡實現(xiàn)了目前最佳的表現(xiàn)。
圖1 本文中使用的模型
2. 普適計算中的深度學習
通過穿戴設備感應器獲得的運動數(shù)據(jù)是多元時間序列數(shù)據(jù),這些數(shù)據(jù)都有相關的高維時空頻率(20Hz-200Hz)。在普適計算領域中分析這些數(shù)據(jù)基本上是在Bulling等人所提出的基礎方法上進行的。第一步是把時間序列數(shù)據(jù)分割成相鄰的片段,通常是通過單個特點或者是滑動窗分割技術。在分割出一系列特性中,在每一幀最有可能包含的是統(tǒng)計特性或者頻率域中的詞干。
目前在普適計算領域中最流行的方法是卷積網(wǎng)絡,許多作者都用它來處理活動識別任務。更進一步的是,卷積網(wǎng)絡已經(jīng)被用來處理特定領域的問題,像在Autism中檢測常規(guī)運動等,它們以及能將其提升到目前最佳的水準。
3. 針對人類活動識別對深度學習進行比較
雖然在不同情境的人類行為識別(HAR)方面已經(jīng)有過一系列的研究探索,但是對于深度學習的兼容性上仍然缺乏一個系統(tǒng)性的研究。研究者進行初步試驗對邊界空間進行探索,但通常忽略了細節(jié)問題,這使得整個過程仍然不明確且難以重復。相應的,像CNNs這樣的單一網(wǎng)絡在單一應用情境下表現(xiàn)良好。然而,單個的良好表現(xiàn)并不能代表整體在普適計算在人類行為識別上的普遍適用性。在限定條件下的探索實驗中,這些結果有多少代表性?哪些參數(shù)對于最終表現(xiàn)影響最大?實驗者怎么找到那個剛好適合他們研究的參數(shù)?這些問題對于研究學者們十分重要,但是目前這些問題仍然沒有解答。
在本文中我們首先提出了 在三種代表性數(shù)據(jù)集上 最流行的深度學習方法的表現(xiàn)。
這些包括幾個典型的應用情境,如控制手勢、重復動作和帕金森疾病中的醫(yī)學運用。對三種模型的比較如下。為了探索每種方法的適用性我們選取了一系列合理范圍的超參數(shù),同時隨機模型配置。
為了探討每一種方法的適用性,我們?yōu)槊恳粋€超參數(shù)和隨機樣本模型配置都選擇了合理的范圍。并且,通過上千次的實驗對它的性能做出報告,同時分析超參數(shù)對每種方法的影響。
3.1深度前饋網(wǎng)絡(DNN)
我們使用了深度前饋網(wǎng)絡,它相當于五個有著softmax-group的隱層的神經(jīng)網(wǎng)絡。DNN代表網(wǎng)絡輸入數(shù)據(jù)的一個非線性轉換序列。我們遵循規(guī)則,并提出了一個有著N個隱層的網(wǎng)絡作為N層網(wǎng)絡。每個隱層都包含有,相同的數(shù)量的單元,對應的線性轉換,和一個激活函數(shù)(ReLU)。我們使用了兩個不同規(guī)范技術:(i)Dropout:在訓練期間,每一個隱層的每個單元都通過一個概率Pdrop設置成0,而在推斷時,每一個單元的輸出都通過1/pdrop進行縮放(所有實驗的dropout率都是固定值0.5)。(ii)Max-in準則:每個批梯度下降之后,網(wǎng)絡中每個單元的輸入量都被放縮到一個最大歐式長度din。對于限制方法中超參數(shù)的數(shù)量,我們選擇不去進行任何生成的預訓練,并且只依靠監(jiān)督學習的方法。輸入到網(wǎng)絡中的輸入數(shù)據(jù)相當于每個移動數(shù)據(jù)的幀。每個幀都由Rd中不同數(shù)量的s樣本組成,也就是簡單地連接到一個單一的向量FtRs*d。圖1(d)中對模型進行了說明。
DNN是用批梯度下降的方法進行訓練的,其中每一個批梯度下降包含64個幀,并且它是根據(jù)測試集中的階級分層進行分層的。我們使用隨機梯度下降的方法,盡量減小陰性似然。
3.2卷積網(wǎng)絡(CNN)
卷積網(wǎng)絡的目標是在輸入數(shù)據(jù)的模式匹配中引入一個位置,并且確保每個有運動數(shù)據(jù)幀的模式的精確位置,的平移不變性(例如,發(fā)生的時間)。我們研究了卷積網(wǎng)絡的性能,遵循了[Srivastava等人,2014]在結構方面的建議,并且規(guī)范化了技術。圖1(c)說明CNN的整體結構。每個CNN包含至少一個暫存的卷積層,一個pooling層,和一個完整的連接層——在最高等級Softmax-group之前。暫存的卷積層相當于有著nf種不同特征圖——寬度為Kw,的輸入序列的卷積。最后的max-pooling,即是尋找寬度為mw范圍中最大值,并對應一個子采樣,向系統(tǒng)引入平移不變性。整個實驗中max-pooling的寬度為固定值2。每個max-pooling層的輸出都通過一個激活函數(shù)進行轉換。隨后的完全連接的部分有效地對應一個DNN并且遵循上述相同的架構。
對于規(guī)則化,我們應用了每一個max-pooling層/完全連接層的dropout,在整個實驗中可能的dropout Pidrop在i層中是固定值(p1drop=0.1,p2drop=0.25,pi>2drop=0.5)。類似于DNN我們同樣使用了max-in準則。輸入到CNN的輸入數(shù)據(jù),如DNN中一樣,對應移動數(shù)據(jù)的幀
。然而,并非連接不同的輸入維度,矩陣結構被保留(FtRsxRd)。CNN的訓練,使用了批梯度下降法(64幀)和隨機梯度下降法,以盡量減少陰性似然。
3.3遞歸網(wǎng)絡
為了研究移動數(shù)據(jù)的時序依賴,我們使用了遞歸數(shù)據(jù)網(wǎng)絡,它基于vanilla變型(不包括peephole聯(lián)系)的LSTM單元。當網(wǎng)絡中的一些連接形成定向循環(huán)時,該結構是遞歸的,其中當前的時間t會考慮到前面時間t-1的網(wǎng)絡狀態(tài)。當錯誤的衍生物通過遞歸網(wǎng)絡中的很多層“通過時間”進行反向傳播時,LSTM單元用于抑制梯度下降。每一個LSTM單元(聯(lián)合)都會持續(xù)追蹤代表他“記憶”的內(nèi)部狀態(tài)(the constant error carousel)。隨著時間的推移,該單元學會,輸出,覆蓋,或者基于當前的輸出和過去的內(nèi)部狀態(tài)清空他們的內(nèi)存,從而使一個系統(tǒng)保留數(shù)百個時間步長的信息。
我們實現(xiàn)了兩個有特色的LSTM遞歸網(wǎng)絡:(i)深度前饋LSTMs,它包含多種遞歸單元層,并及時聯(lián)系“前饋”(見圖1(a));(ii)雙向LSTMs,它包含了兩個平行的遞歸層,在一個連接了它們在時間步長t時內(nèi)部狀態(tài)的層之后(見圖1(b)),延伸到當前時間步長的未來和過去中。
實際上這兩種特色的LSTM,在他們的應用要求方面有著很大不同。前饋LSTM聯(lián)系當前的時間步長,是基于它看到了過去,并且,在推理時,“未來”還不知道的情況下,它本質(zhì)上適合于實時應用。另一方面雙向LSTMs利用了未來和過去的上下文,去解釋時間t時的輸入,這使得它更適合于離線分析場合。
在該工作中,我們應用了三種不同設置的遞歸網(wǎng)絡,每一種都使用adagrad和max-in規(guī)則進行訓練以便最小化陰性似然。
在第一種情況下,在任何給定的時間t輸入到網(wǎng)絡的輸入數(shù)據(jù),都對應當前幀的運動數(shù)據(jù),它延伸到一個特定的時間長度,并且維度也被級聯(lián)(如前面的DNN一樣)。我們將該模型稱之為LSTM-F。前饋LSTMs達到第二種應用情況,代表了實時的應用,其中提出的每一個移動數(shù)據(jù)采樣都是針對于他們記錄序列中的網(wǎng)絡,稱之為LSTM-S。最后場景中,對于同樣的樣本到樣本預測問題,應用了雙向LSTMs。我稱之為LSTM-S。
3.4對于HAR訓練RNNs
RNNs相同的應用,包括演講識別和自然語言處理。在這種設定下,輸入的上下文(例如,一個單詞)受限于它周圍的實體(例如,句子,段落)。訓練RNNs時,通常把上下文的實體看成一個整體,例如在一個完整的句子中訓練RNN。
在HAR中,移動數(shù)據(jù)個體樣本的上下文沒有得到很好的定義,至少,超越了鄰近樣本之間的直接關系,并且好像還取決于移動的類型和它更廣泛的行為情景。這是該領域眾所周知的事,并且它會影響選擇滑動窗口分割的窗口長度。
對于建立用于訓練RNN的b批梯度下降,我們在開始和結束訓練集中,初始化了多個位置(pi)b。對于建立批梯度下降,我們采用了L樣本跟隨(pi)b中的每個位置,并且增加L步長的(pi)b,它可能纏繞到該序列結束。我們發(fā)現(xiàn)隨機初始化位置以避免梯度振蕩是非常重要的。當這個方法保留對RNN提出的樣品排序時,它不允許每一個批梯度下降層,都關于類-分布。
4.實驗
實驗中研究的不同種類的超參數(shù)在表1中列出。最后一列表示了每個數(shù)據(jù)集采樣的參數(shù)配置的數(shù)目,它們被挑選出來代表一個相等量的計算時間。我們在三個代表了HAR典型問題的基準數(shù)據(jù)集進行了實驗(下文進行描述)。實驗是在一個有著3個GPUs (NVidia GTX980 Ti)的機器上進行,其中除了最大的網(wǎng)絡,兩個模型配置都在不同的GPU上運行。
在每次訓練之后,我們都在驗證集中進行性能評估。每個模型都訓練了至少30次,其中最大的是300次。訓練30次之后,如果在10次后驗證性能沒有得到提升,便終止訓練。我們選擇了顯示最優(yōu)驗證集性能的次數(shù),并且將對應的模型應用到測試集中。
4.1數(shù)據(jù)集
實驗中,我們研究了三個在普適計算中具有代表性的HAR數(shù)據(jù)集。每一個數(shù)據(jù)集都對應一個HAR的應用。第一個數(shù)據(jù)集,Opportunity,它包含如開門和關門的操控手勢,這種手勢持續(xù)時間段,而且是不重復的。第二個數(shù)據(jù)集,PAMAP2,它包含了典型的系統(tǒng)特征——長時間和重復的物理運動,這其目的是描述能源支出。第三個數(shù)據(jù)集,Daphnet Gait,對應一個醫(yī)療應用,它參與展現(xiàn)了一個典型帕金森氏病中的運動并發(fā)癥,眾所周知該疾病有著非常大的整體變化性。接下來我們詳細的描述每個數(shù)據(jù)集。
Opportunity數(shù)據(jù)集(Opp)
Chavarriaga等人,用4個參與者——被要求進行相同的廚房活動,身上傳感器的數(shù)據(jù)組成了注釋記錄。數(shù)據(jù)是在頻率為30Hz的情況下,從人體12地方記錄到的,并且用了18個中級手勢進行了注釋(例如,開門/關門)。每個對象,都從五個不同的方式進行了數(shù)據(jù)記錄。我們使用的子集,沒有丟失任何的數(shù)據(jù)包——包括加速的記錄,如抬手臂,放回,和腳部完整的IMU數(shù)據(jù)。最終數(shù)據(jù)是79維度的。我們使用了對象1中的第2關作為我們的驗證集,并且通過使用我們測試集中對象2和3的第4和第5關,復制最流行的識別挑戰(zhàn)。剩余的數(shù)據(jù)被用于訓練。對于幀到幀的分析,我們創(chuàng)造了持續(xù)時間為1秒和重疊部分為50%的滑動窗口。最終的訓練集包含大概650k的樣本(43k的幀)。
PAMAP2數(shù)據(jù)集
Reiss和Strickere,在被要求進行12項日常生活的9個參與者中,進行了數(shù)據(jù)記錄,包括家庭活動和各種各樣的活動(北歐散步,踢足球,等)。加速度計,陀螺儀,磁力計,溫度,心率數(shù)據(jù)都是由位于手,胸部和腳踝的慣性測量單位記錄的(總共超過了10個小時)。最終的數(shù)據(jù)是52維度的。我們在驗證集中使用了對象5的第1和第2關,在測試集中使用對象6的第1和第2關。剩余的數(shù)據(jù)用于訓練。在分析中,我們向下采樣計算器到33.3Hz,以便與Opportunity數(shù)據(jù)集有一個時間分辨率的比較。對于從幀到幀分析,我們用一個5.12秒的非重疊滑動窗口——它的相鄰窗口之間持續(xù)時間為一秒(78%重疊),復制以前的工作。該訓練集包括大概473k的樣本(14k的幀)。
Daphnet Gait 數(shù)據(jù)集
(DG)Bachlin等人記錄了帕金森病(PD)對于10個參與者的影響,這意味著開展活動,可能會導致步態(tài)凍結。凍結是帕金森病常見的運動并發(fā)癥,它會影響個體的移動,例如散步。我們的目的是檢測這些凍結的事件,以便通知未來情境激勵系統(tǒng)。這代表一個兩級的識別問題。加速器數(shù)據(jù)是從腳踝以上,膝蓋以上和軀干部位進行記錄的。最終的數(shù)據(jù)是9維的。我們在驗證集中使用對象9的第1關,在測試集中使用了對象2的第1和第2關,并且使用剩余的數(shù)據(jù)進行訓練。據(jù)我們分析,我們向下采樣加速器數(shù)據(jù)到32Hz,對于幀到幀的分析,我們創(chuàng)造了持續(xù)1秒且重疊為50%的滑動窗口。整個訓練集包含了大概470k的樣本(30k的幀)。
表1:模式的超參數(shù)和實驗的數(shù)值范圍
通過逐幀分析,我們創(chuàng)造了持續(xù)時間為1秒且重疊部分為50%的滑動窗口。訓練集大約包括470K的樣本(30k幀)。
4.2超參數(shù)的影響
為評價所有實驗中每一個參數(shù)的影響,我們運用fANOVA框架分析方法。fANOVA會決定每一個超參數(shù)對于網(wǎng)絡結構表現(xiàn)的影響程度。它會就模式的表現(xiàn)建立一個預測模式,并作為超參數(shù)的函數(shù)。這一非線性模式隨即被分解成為超參數(shù)的相互作用函數(shù)。fANOVA曾在遞歸函數(shù)中進行超函數(shù)探索。
對于探索者來說,知道模式的哪一方面對表現(xiàn)的影響最大是至關重要的。我們將模式的參數(shù)分成三類:(1)學習型參數(shù),控制學習過程;(2)規(guī)則型參數(shù),限制模式的建模能力以防止過度重合;(3)構建型參數(shù),影響模式的結構。每一個超參數(shù)都不一樣,我們估計歸因于參數(shù)類別和不同等級參數(shù)之間的相互作用。
4.3 表現(xiàn)標準
由于在本次研究中所使用的數(shù)據(jù)集有偏重,所以要求表現(xiàn)標準的類別分布是獨立的。我們傾向于評估f1數(shù)值的平均值:
相關研究曾使用加權f1分值作為主要表現(xiàn)標準。為把我們的結果和其他先進方法進行比較,我們會對加權f1分值進行評估:
Nc表示的是在c等級之內(nèi)的樣本數(shù)量,Ntoatal代表是樣本總數(shù)量。
表2:每一模式和數(shù)據(jù)集所獲得的最好結果,和一些比較標準。變量增量(表格的下半部分)指代的是所有實驗中上等和中等表現(xiàn)之間的絕對差別。
5.結果
結果在圖2可見。圖(a-c)顯示的是主要表現(xiàn)標準在每一個數(shù)據(jù)中的累積分布。圖(d)通過fANOVA 解釋了每一超參數(shù)類型的影響。
總的來說,我們觀察了模式在OPP和DG上的優(yōu)秀表現(xiàn)分布,其中在(b-LSTM-S)表現(xiàn)最好f1的平均值超過了15%,在OPP中表現(xiàn)最差(DG上的平均值為12%)(見圖2)。在PAMAP2上的差別較小,但也有7%。在OPP上表現(xiàn)最好的方法超過目前的先進方法,在f1的平均值上超過4%(加權f1值超過1%)。CNN模式發(fā)現(xiàn)此項研究比之前結果都要好,因為f1的平均值和加權平均值都超過5%(見圖2)。遞歸方法表現(xiàn)良好,它能就實驗樣品進行建模,能對HAR進行新(實時)運用,因為它們能緩解分割時間序列數(shù)據(jù)的壓力。
圖2:(a)-(c)每一個數(shù)據(jù)集識別表現(xiàn)的累積分布;(d)從fANOVA分析得出的結果,并解釋超參數(shù)的種類對于識別表現(xiàn)的影響(見表1)。
在本次所研究的模式中,表現(xiàn)得分的分布不同。CNNs顯示最有特色的表現(xiàn):模型配置的一小部分表現(xiàn)較差(例如,在PAMAP的得分為20%),而其余配置在表現(xiàn)上的差別卻不大。在PAMAP2中,例如,最優(yōu)表現(xiàn)和中等表現(xiàn)之間的f1平均值只相差7%(見表2)。DNNs顯示在OPP上所有方法的最優(yōu)和中等表現(xiàn)相差最大值為35。7%。兩個前置RNNs模式(LSTM-F,LSTM-S)在不同數(shù)據(jù)集上表現(xiàn)相似。尤其在PAMAP2和OPP上進行探索的配置識別表現(xiàn)非凡。
超參數(shù)種類對于識別表現(xiàn)影響的解釋在圖2(d)中可見。有趣的是,我們觀察的是CNN中,參數(shù)的最一致影響。與我們期待相反的是,圍繞學習過程(見表1)的參數(shù)對于表現(xiàn)的影響最大。我們希望對于這一模式而言,擁有多樣選擇結構變體影響會更大。對于DNNs,我們不會觀察任意超參數(shù)種類的系統(tǒng)影響。在PAMAP2中,準確的學習參數(shù)會是最關鍵的。在OPP中,是模式結構最關鍵。十分有趣的是,我們觀察到網(wǎng)絡結構較淺的模式比深度網(wǎng)絡表現(xiàn)更好。在這一網(wǎng)絡結構表現(xiàn)中有下降趨勢且?guī)в谐^3層的隱藏層。這可能與我們僅僅只依靠監(jiān)督進行訓練有關,因為生成訓練能提深度網(wǎng)絡的表現(xiàn)。
在OPP中,基于框架的RNN(LSTM-F)的表現(xiàn)受本次研究中的結轉概率影響。由于經(jīng)常保持內(nèi)在狀態(tài)或是忘記內(nèi)部狀態(tài),這都會導致表現(xiàn)結果較差。我們發(fā)現(xiàn)0.5的Pcarry在大多數(shù)情況下都表現(xiàn)良好。我們的發(fā)現(xiàn)值得進行對轉結時間表進行更加深入的研究,這會提高LSTM的表現(xiàn)。
基于樣本實驗的前向LSTMs(LSTM-S)的研究結果證明了之前的發(fā)現(xiàn),因為對于這種模式其學習率是至關重要的參數(shù)。然而,對于雙向LSTM(b-LSTM-S),我們發(fā)現(xiàn)每一層的單元數(shù)對表現(xiàn)影響重大,所以實驗者應重點關注此類參數(shù)。
6.討論
在本次研究中,我們探索了先進深度學習方法通過使用便攜式傳感器對人類活動識別的表現(xiàn)。我們介紹了如何在此設定中訓練遞歸方法并引入新穎的規(guī)則化方法。在數(shù)千次實驗中,我們用隨機選擇取樣的參數(shù)對模式的表現(xiàn)進行評估。發(fā)現(xiàn)在Opportunity中雙向LSTMs比目前先進的方法表現(xiàn)要好,基準數(shù)據(jù)庫要更大,利潤更可關。
但是對于研究者而言有趣的,不是每一個模式的峰值性能,而是參數(shù)在適應不同HAR任務時的探索和理解過程。對于時間較短但是按照時間順序發(fā)生的時間理解中,遞歸網(wǎng)絡模式比卷積模式表現(xiàn)得更好。因為遞歸模式有較好的理解語境能力。對于雙向RNNs,我們發(fā)現(xiàn)在所有的數(shù)據(jù)集中,每一層的單元數(shù)目對表現(xiàn)的影響都很大。對于持續(xù)時間長且是重復發(fā)生的動作,例如,走路,跑步;我們推薦使用CNNs模式。在此情景中平均表現(xiàn)能讓研究者更容易發(fā)現(xiàn)一個合適的配置,盡管RNNs模式和CNNs 模式表現(xiàn)差不多,甚至是RNNs有時表現(xiàn)的更好。我們強烈建議在優(yōu)化網(wǎng)絡結構之前要開始探索學習率,因為在我們的試驗中發(fā)現(xiàn)學習率對表現(xiàn)的影響最大。
我們發(fā)現(xiàn)在不同的參數(shù)設置下,模式的識別表現(xiàn)都不一樣。Regular DNNs模式對于研究者來說是最可行的方法,因為它需要進行大量的參數(shù)探索,并且在優(yōu)良表現(xiàn)和中等表現(xiàn)之間的跨度較大。所以研究者不應舍棄在開始時識別表現(xiàn)較差的模式。更復雜的方法,例如,CNNs或是RNNs在表現(xiàn)上的差別較小,所以更可能發(fā)現(xiàn)表現(xiàn)較好的參數(shù)并且迭代次數(shù)也少。
點評
這篇文章主要針對人類行為識別問題,介紹并比較了三類不同的模型,包括DNN,CNN和RNN,并運用可穿戴傳感器的運動數(shù)據(jù)和人類運動識別中的不同任務(如開關門、帕金森病等的運動情況)對三類模型的適用性進行了比較研究。
對于可穿戴設備收集得數(shù)據(jù)集,可穿戴設備主要以加速度計、陀螺儀等傳感器測得數(shù)據(jù),精度會更高,但其應用也就有了限制,必須在可以加裝這些傳感器的場景才行。音視頻就更為一般性些,只需要有話筒和攝像頭,不一定加在被監(jiān)控對象身上。
文中提到的實驗是深度學習在PD檢測方面的應用,用以判斷病情。
via IJCAI 2016
PS : 本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關注)(搜索“雷鋒網(wǎng)”公眾號關注)獨家編譯,未經(jīng)許可拒絕轉載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。