丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國(guó)際 正文
發(fā)私信給李尊
發(fā)送

1

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

本文作者: 李尊 2016-06-28 13:06
導(dǎo)語(yǔ):在本文中,我們會(huì)建立一種模式,此模式會(huì)檢測(cè)多人視頻中的活動(dòng)并且會(huì)關(guān)注此活動(dòng)中的關(guān)鍵人物。

本文聯(lián)合編譯 : 陳?ài)?、Blake

多人視頻中活動(dòng)和關(guān)鍵人物的檢測(cè)

摘要

多人活動(dòng)識(shí)別是一個(gè)極具挑戰(zhàn)的任務(wù),雖然很多人在一個(gè)場(chǎng)景中出現(xiàn),但只有一小部分人的活動(dòng)能被重點(diǎn)關(guān)注到。在本文中,我們建立了一種模式,此模式會(huì)檢測(cè)多人視頻中的活動(dòng)并且會(huì)重點(diǎn)關(guān)注此活動(dòng)中的關(guān)鍵人物。一般來(lái)說(shuō),我們?cè)谝曨l中檢測(cè)人的行為會(huì)使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)表示這些人的行為軌跡特征。把了解到的瞬息變化的特征都按時(shí)間先后記錄下來(lái)。接下來(lái),將檢測(cè)到的特征使用另一個(gè)遞歸神經(jīng)系統(tǒng)進(jìn)行行為檢測(cè)和分類。因?yàn)榇蠖鄶?shù)多人視頻中的數(shù)據(jù)集都限制于少數(shù)的視頻中,我們收集了一個(gè)新的籃球比賽數(shù)據(jù)集包括257場(chǎng)籃球賽并根據(jù)11種活動(dòng)行為分類帶有14k的注釋。這種模式在基于新數(shù)據(jù)的活動(dòng)分類和檢測(cè)方面目前超過(guò)了世上的許多先進(jìn)技術(shù)。此外,我們將會(huì)展示注意機(jī)制能連續(xù)地定位相關(guān)人物。

1.介紹

盡管視頻識(shí)別和檢測(cè)從最近的大規(guī)模數(shù)據(jù)和模式引進(jìn)中受益匪淺。然而,卻局限于單人活動(dòng)做基礎(chǔ)的活動(dòng)。另一個(gè)同樣重要的問(wèn)題是多人視頻中活動(dòng)識(shí)別的問(wèn)題。在我們的研究中,我們?yōu)檫@一特殊設(shè)定設(shè)計(jì)了一個(gè)新的模式和數(shù)據(jù)集。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

圖1:在籃球比賽中關(guān)注錯(cuò)誤的人會(huì)無(wú)法傳遞比賽信息,如第一行所示。但是在同樣的視頻,當(dāng)關(guān)注到正確的人之后,我們就能更容易辨別“2個(gè)成功點(diǎn)”:傳遞球的人和投籃的分的人。我們使用相同的直覺(jué)在活動(dòng)識(shí)別中關(guān)鍵球員。

在體育比賽,市場(chǎng),或是其他包括多人互動(dòng)領(lǐng)域視頻拍攝。許多人都在做“事情”,但不是所有的人都在參與主要的活動(dòng)。主要活動(dòng)往往由少部分人承擔(dān)進(jìn)行。例如,一次“投籃”是由一個(gè)或是兩個(gè)人完成(如圖一)。此外,為確認(rèn)關(guān)鍵人物排除其他不先關(guān)人物也是很關(guān)鍵的。這是至關(guān)重要的一點(diǎn),也是區(qū)分單人視頻和多人視頻的關(guān)鍵點(diǎn)。

憑自己的本事辨認(rèn)出活動(dòng)的關(guān)鍵人物是一個(gè)有興趣的任務(wù)。然而獲得此類解釋是非常昂貴的,所以在辨認(rèn)關(guān)鍵人物的訓(xùn)練中無(wú)需使用注釋的模式非常必要的。這也可以看做是對(duì)關(guān)鍵人物監(jiān)視薄弱的問(wèn)題。在本文中,我們提議使用通過(guò)能關(guān)注關(guān)鍵人物子集的模式去分類活動(dòng)。我們?cè)谧龃耸聲r(shí),并未準(zhǔn)確告訴模式關(guān)鍵人物是誰(shuí)?他在哪?

最近,一些論文提出使用“注意”模式從混合的輸入到輸出排列排列元素。例如,把句子從一種語(yǔ)言翻譯到另一種語(yǔ)言,再輸入時(shí)就關(guān)注句子中的不同單詞;生成一個(gè)映像說(shuō)明,需注意映像中的不同部分;生成一個(gè)視頻說(shuō)明,需注意視頻中的不同幀。

在我們的研究中,我們使用“注意”來(lái)決定哪些人是與實(shí)施動(dòng)作聯(lián)系最緊密的,且“注意”能隨時(shí)變化。因此我們聯(lián)合時(shí)間和空間注意。注意到盡管人的檢測(cè)從一幀到另一幀都不相同,但他們能通過(guò)跨幀追蹤聯(lián)系起來(lái)。我將會(huì)展示如何使用神經(jīng)遞歸網(wǎng)絡(luò)(RNN)表示每一幀的信息;注意模式被用于訓(xùn)練在每一幀中選出最相關(guān)的追蹤。此模式除能辨認(rèn)相關(guān)人物,我們也將展示它較好的活動(dòng)辨別能力。

為了能評(píng)估我們的的方法,我們需要大量的多人視頻解釋活動(dòng)。最優(yōu)先的活動(dòng)識(shí)別數(shù)據(jù)集是關(guān)于一個(gè)或是兩個(gè)人的。多人視頻多限于少量視頻。因此我們需自己收集相關(guān)數(shù)據(jù)集。我們建立一個(gè)籃球賽數(shù)據(jù)集,對(duì)所有的11不同活動(dòng)包括257個(gè)視頻,每個(gè)時(shí)長(zhǎng)1.5個(gè)小時(shí),備注時(shí)間印記。這個(gè)數(shù)據(jù)集就備注的數(shù)量而言是可比擬THUMOS數(shù)據(jù)集的,但包括更多的多人視頻。

總結(jié)而言,本文所作成就如下。第一,我們引進(jìn)一個(gè)大規(guī)模的籃球數(shù)據(jù)集,且?guī)в?4K即時(shí)注釋。第二,我們將會(huì)展示我們的模式在分類剪輯視頻和在未剪輯視頻中的定位功能等方面超過(guò)先進(jìn)模式。第三,我們將會(huì)展示我們的模式能學(xué)習(xí)關(guān)注相關(guān)人物,盡管未被告知在訓(xùn)練集中哪個(gè)人物是相關(guān)的。

2. 相關(guān)工作

視頻中的行為識(shí)別。一般說(shuō)來(lái),有良好編程的特征在視頻分類和檢索等任務(wù)中十分有效。在標(biāo)準(zhǔn)視頻數(shù)據(jù)集中改良密集軌道(IDT)取得較好成效。在最過(guò)去幾年端對(duì)端深度網(wǎng)絡(luò)模式在各種網(wǎng)絡(luò)任務(wù)中表現(xiàn)很好。其他任務(wù)則致力于探索使用這些特征表現(xiàn)地更好。最近的研究使用神經(jīng)遞歸網(wǎng)絡(luò)(RNN)在活動(dòng)識(shí)別和生成說(shuō)明等方面取得較好成就。我們跟隨此研究線索關(guān)注到參與者。

 另一條研究線在識(shí)別動(dòng)作的同時(shí)確認(rèn)視頻中的有趣之處。Gkioxari et al. 和 Raptis et.al 會(huì)在視頻中自動(dòng)識(shí)別時(shí)空管。Jain et al. 為行為定位加入超級(jí)像素。其他的研究如學(xué)著從帶有部分簡(jiǎn)單注釋的和部分對(duì)準(zhǔn)的電影剪輯中定位相關(guān)人物。盡管這些模式執(zhí)行薄弱監(jiān)督的行為確定,他們?cè)诙桃曨l中將目標(biāo)鎖定在單人視頻,且在短視頻中的行為是圍繞這個(gè)人展開(kāi)。在訓(xùn)練定位動(dòng)作時(shí),模式需要備注。

 多人視頻分析?;顒?dòng)識(shí)別模式需要界限明確的組別框架。這些模式利用參與者的分布框架去確認(rèn)小組活動(dòng)。但是,這些方法卻受限于較小的數(shù)據(jù)集。

關(guān)注模式。Itti et al. 探索在映像中基于顯著性的關(guān)注模式,例如使用眼睛凝視數(shù)據(jù)作為一種學(xué)習(xí)注意的方法。Mnih et al.通過(guò)RNN關(guān)注影像領(lǐng)域的解決方法?!白⒁狻蓖瑯右脖挥糜趫D像分類和檢測(cè)。

 Bahdanau et al. 展示了“基于注意的”RNN模式能為機(jī)器翻譯有效地排序輸入和輸出。緊接著Xu et al. and Yao et al.使用“注意”分別用于圖像說(shuō)明和視頻說(shuō)明。在所有的方法中,“注意”校對(duì)了輸入和輸出的一系列特征。但是我們使用“注意”在活動(dòng)的不同階段辨認(rèn)出關(guān)鍵人物。

行為識(shí)別數(shù)據(jù)集。在視頻中的行為識(shí)別涉及到更復(fù)雜的數(shù)據(jù)集,從KTH,HMDB到更大的UCF101,TRECVID-MED和Sports-1M數(shù)據(jù)集。最近,THUMOS和ActivityNet同樣也提供了檢測(cè)設(shè)置,且對(duì)未剪輯視頻中的每一個(gè)行為作了即時(shí)注釋。在在特定的場(chǎng)景,MPII的烹飪和早餐中有條紋細(xì)膩的數(shù)據(jù)集。然而大多數(shù)數(shù)據(jù)集只關(guān)注一個(gè)人的活動(dòng),無(wú)需辨認(rèn)發(fā)出行為動(dòng)作的人。另一方面,公開(kāi)可獲得的多人活動(dòng)數(shù)據(jù)集數(shù)量非常少。我們所作貢獻(xiàn)之一就是籃球賽數(shù)據(jù)集有頻繁的活動(dòng)解釋。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

圖2:我們?cè)陂L(zhǎng)視頻中詳細(xì)注明11個(gè)不同的籃球活動(dòng)。如圖所示,我們通過(guò)AMT任務(wù)收集了時(shí)間印記和活動(dòng)標(biāo)簽。

 

  個(gè)人識(shí)別和追蹤。有相當(dāng)多的文獻(xiàn)都是關(guān)于個(gè)人識(shí)別和追蹤。也有特定的方法進(jìn)行個(gè)人識(shí)別和追蹤。我們只提及少部分重要方法。對(duì)于人類識(shí)別,我們使用基于CNN多語(yǔ)種檢測(cè)器。對(duì)于個(gè)人追蹤使用KLT追蹤器。但在此項(xiàng)研究中,我們并未嘗試識(shí)別辨別參與者。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

表1:每一個(gè)活動(dòng)涉及的視頻數(shù)和每一視頻涉及到的人數(shù)。其中人數(shù)是比現(xiàn)存的多人活動(dòng)數(shù)據(jù)集

3. NCAA籃球數(shù)據(jù)集

對(duì)于收集多人活動(dòng)視頻首選是團(tuán)隊(duì)比賽。在本文中,我們關(guān)注籃球比賽,我們的技術(shù)是通用的。我們使用從Youtube 選取的296場(chǎng)NCAA比賽數(shù)據(jù)集。這些比賽是在不同的場(chǎng)館和不同時(shí)間進(jìn)行的。我們只研究其中最新的257場(chǎng)比賽,因?yàn)榕f的比賽規(guī)則與新的往往有所不同。視頻時(shí)長(zhǎng)一般是1.5個(gè)小時(shí)。我們手動(dòng)分類了11個(gè)活動(dòng)類型(如表格一)。我們選擇5個(gè)典型的投籃,分別可以是成功的,失敗的或是偷偷的行為。

接下來(lái)我們會(huì)進(jìn)行一個(gè)Amazon Mechanical Turk任務(wù),在此任務(wù)中,注解者被要求在每一行為“終點(diǎn)”都標(biāo)上注解;“終點(diǎn)”一般都界限明顯(例如,求脫離球員的手或地面等其他地方,比如在框中)。為確定開(kāi)始時(shí)間,我們假定每一個(gè)行為都有4秒長(zhǎng),因?yàn)楹茈y讓評(píng)定機(jī)構(gòu)同意什么時(shí)候比賽開(kāi)始了。這讓我們有足夠的時(shí)間去分類每一個(gè)行為,且能及時(shí)定位。

  這個(gè)視頻被隨機(jī)剪成了212訓(xùn)練視頻,12確認(rèn)視頻和33測(cè)試視頻。我們把每一個(gè)視頻剪成4秒長(zhǎng)的剪輯(使用注釋界限)并且為6pfs下采樣。我們會(huì)過(guò)濾掉不是人物的剪輯(如圖三所示)使用不同的分類器;這些包括球員的特寫,觀眾的拍攝和當(dāng)前的重放。提到的這些足以與THUMOS’15測(cè)試挑戰(zhàn)的大小進(jìn)行比較(150剪輯過(guò)的訓(xùn)練實(shí)例每一個(gè)有20種類,和6553未被剪輯的確定實(shí)例)。不同事件的注釋分布如表一。

  除了標(biāo)注的事件標(biāo)簽和開(kāi)始及結(jié)束的時(shí)間,我們收集了測(cè)試的850視頻剪輯,并要求標(biāo)注者標(biāo)示出球在每一幀中的位置及球員嘗試投籃的位置。

我們同樣也在測(cè)試視頻的9000多幀中,使用AMT去標(biāo)注球的彈跳。我們接著使用Multibox測(cè)試器是測(cè)試我們的視頻數(shù)據(jù)集。我們保證所有的檢測(cè)的正確性在每幀0.5以上;這導(dǎo)致了每一幀檢測(cè)6-8個(gè)人,如表一所示。

 CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

圖3:在我們的模式,每一個(gè)球員首先是由相應(yīng)的BLSTM網(wǎng)絡(luò)進(jìn)行追蹤。Pi-BLSTM網(wǎng)絡(luò)對(duì)應(yīng)不同的球員。BLSTM隱藏的狀態(tài)被“注意”模式用于辨認(rèn)每一階段的關(guān)鍵球員。BLSTM的不足之處顯示出“注意”的重要性,以及關(guān)鍵人物能隨時(shí)改變。BLSTM代表“雙向長(zhǎng)時(shí)和短時(shí)記憶”。

4.我們的方法

團(tuán)體比賽中的所有活動(dòng)都是由同一批球員在相同的場(chǎng)景中展開(kāi)的。唯一的不同點(diǎn)在于動(dòng)作是在給定的時(shí)間點(diǎn)由一小部分人完成的。例如,一個(gè)“偷偷摸摸的”行為是由一個(gè)球員嘗試傳球,而另一個(gè)卻偷走了球。為理解這一行為,關(guān)鍵在于只關(guān)注參與該行為的人。

4.1特征提取

  每一幀是由1024維度特征構(gòu)成。此外,我們計(jì)算每個(gè)人的空間特征。類似地,對(duì)于RCNN目標(biāo)的檢測(cè),出現(xiàn)的特征是由通過(guò)Inception7網(wǎng)絡(luò)不斷地裁剪不當(dāng)?shù)暮颓騿T重新控制的領(lǐng)域提取出,和空間對(duì)較低層次的集中反應(yīng)??臻g特征對(duì)應(yīng)32×32柱狀圖聯(lián)合空間金字塔去暗示球在大規(guī)模場(chǎng)景中的彈跳位置。盡管我們只使用靜止的CNN表示,但這些特征依然很容易用流信息擴(kuò)展。

4.2 行為分類

在每一幀t中給定ft和pti,我們的目標(biāo)是訓(xùn)練模式是將剪輯視頻分成11類。就如我們建立我們模式方法有副作用,我們同樣也能在每一幀中辨認(rèn)關(guān)鍵人物。

首先我們計(jì)算出每一幀的整體特征,源于雙向LSTM應(yīng)用于幀級(jí)別的特征,如圖三藍(lán)框所示。從前向和反向的LSTM成分BLSTM一系列隱藏的狀態(tài)能簡(jiǎn)潔表示如下:

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

接下來(lái)我們使用單向的LSTM去表示行為瞬時(shí)狀態(tài)t:

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

At 是球員的特征,如下所描述的。從此處我們可以預(yù)測(cè)等級(jí)標(biāo)記,因?yàn)榧糨嬍褂?nbsp;wk|het,因?yàn)樵诖酥械闹亓渴噶颗ck相呼應(yīng),且k由wk暗示。我們計(jì)算方鉸鏈 損失如下:

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

在此公式中yk是1,但如果視頻屬于k級(jí)別,那就是-1。

4.3 注意力模型

和過(guò)去的注意力模型不一樣,我們需要在每個(gè)時(shí)間步上添加一系列不同的特性。在這個(gè)設(shè)置過(guò)程中有兩個(gè)關(guān)鍵問(wèn)題。

第一,   雖然我們?cè)诿總€(gè)幀都有進(jìn)行不同的檢測(cè),但是它們也能通過(guò)一種對(duì)象追蹤來(lái)越過(guò)幀進(jìn)行連接。這個(gè)可能使球員的表現(xiàn)得更好。

第二,   球員的注意取決于球場(chǎng)上當(dāng)下的情況,同時(shí)需要根據(jù)球場(chǎng)上的情況作出調(diào)整。例如,如果完成一個(gè)“三分球”行為,這個(gè)球員把球投出去的行為就很重要。不過(guò),在這個(gè)行為的最后可以通過(guò)判斷這個(gè)球員是否拿球來(lái)判斷投籃成功還是失敗。

考慮到這幾個(gè)因素,我們首先提出使用基于每個(gè)運(yùn)動(dòng)追蹤來(lái)學(xué)習(xí)的BLSTM模型。我們也提出了一個(gè)簡(jiǎn)單的無(wú)追蹤基準(zhǔn)模型。

追蹤注意模型

首先我們使用一個(gè)標(biāo)準(zhǔn)方法將同一個(gè)運(yùn)動(dòng)員的檢測(cè)數(shù)據(jù)關(guān)聯(lián)到運(yùn)動(dòng)追蹤中,通過(guò)使用KLT追蹤結(jié)合雙向圖像匹配來(lái)實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)。

在計(jì)算運(yùn)動(dòng)員表現(xiàn)的時(shí)候可以將運(yùn)動(dòng)追蹤運(yùn)用到臨近幀的環(huán)境融合中。通過(guò)一個(gè)分離的BLSTM我們能實(shí)現(xiàn)這一點(diǎn)。相應(yīng)公式如下:

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

在每個(gè)時(shí)間步我們都希望最相關(guān)的那個(gè)球員能在一瞬間被選中,實(shí)現(xiàn)方式如下:

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

 無(wú)追蹤注意模型

通常在人多的場(chǎng)景下由于各種阻塞和快速運(yùn)動(dòng),想要追蹤人物是十分困難的。在這種情況下,使用無(wú)追蹤模型是比較好的。所以,我們提出了一種模型,它在每一個(gè)畫面下的檢測(cè)識(shí)別和其它畫面下的都是互相獨(dú)立的。它的特性如下:


 CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

5. 實(shí)驗(yàn)評(píng)價(jià)

在這節(jié)中,我們提出了三種針對(duì)NCAA數(shù)據(jù)的分析實(shí)驗(yàn):

1. 活動(dòng)分類 2.活動(dòng)檢測(cè) 3.主動(dòng)評(píng)價(jià)

5.1 實(shí)現(xiàn)過(guò)程

我們對(duì)所有LSTM和BLSTM RNNs使用一種隱藏256狀態(tài)維。所有的視頻片段都是4秒長(zhǎng)和6fps。這些模型是通過(guò)一組20個(gè)GPU在一天內(nèi)10萬(wàn)次迭代訓(xùn)練得來(lái)的,超參數(shù)是通過(guò)交叉驗(yàn)證選取的。

5.2 活動(dòng)分類

這節(jié)中,我們將各種方式分類視頻片段的能力分成了11個(gè)等級(jí),它們分別是:

IDT、IDT player、C3D、LRCN、MIL、Only player、Avg. player、Attention no track、Attention with track

表2展示的是每個(gè)設(shè)定的平均精確度信息。我們可以看出使用本地和全局信息的模型比僅僅使用本地或者全局的模型表現(xiàn)要好。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

表2

類型不同則表現(xiàn)也不一樣。特別要提到的是,因?yàn)槲覀兯械臄?shù)據(jù)量太少,(所有的方法)在“灌籃失敗”這一類中表現(xiàn)都不好。然而,在“罰球”、“上籃”、“三分球”這幾類中表現(xiàn)不錯(cuò)。

5.3 活動(dòng)檢測(cè)

這節(jié)中,我們?cè)u(píng)估了這些方法在陌生視頻中分辨的能力。我們將一個(gè)4秒的畫面插入所有的籃球視頻中,想知道它是不是能分辨出來(lái)。我們?cè)谟?xùn)練、測(cè)試和確認(rèn)中使用了同樣的設(shè)置。在所有的視頻中這個(gè)導(dǎo)致了90200負(fù)例。然而,因?yàn)橛?jì)算限制我們沒(méi)能夠訓(xùn)練MIL模型。

檢測(cè)結(jié)果如表3所示,我們能夠看到注意力模型的表現(xiàn)比之前所有新方法都要好。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

表3

5.4 注意力分析

我們已經(jīng)知道注意力能夠提升模型在分類以及檢測(cè)等任務(wù)上的表現(xiàn)。現(xiàn)在,我們來(lái)評(píng)價(jià)注意力模型在識(shí)別關(guān)鍵球員上準(zhǔn)確度如何(模型從未針對(duì)檢測(cè)關(guān)鍵球員進(jìn)行訓(xùn)練)。

為了評(píng)估這些模型,我們將畫面中離球最近的球員標(biāo)記為“投手”。我們使用這些注釋來(lái)評(píng)估我們的“注意”分?jǐn)?shù)能否足夠?qū)@些“投手”進(jìn)行正確分類。

對(duì)“投手”進(jìn)行分類的平均準(zhǔn)確度結(jié)果如圖4所示。這個(gè)結(jié)果表明無(wú)追蹤注意力模型在選取投手“罰球成敗”、“上籃成敗”、“灌籃成敗”這就類上相當(dāng)一致。這對(duì)找出投手的身份提供了更詳細(xì)的資料。

我們同樣將樣本視頻中的注意模型做了圖示,如圖4.,圖5展示了球場(chǎng)上球員運(yùn)動(dòng)的熱量圖。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

           三分球-成功                                        灌籃-成功                                       罰球失敗          

圖4

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

圖5

基于追蹤的模型在關(guān)注投手上的注意力選擇性不強(qiáng)。我們觀察到在不同畫面切換注意力到同一個(gè)球員身上比較勉強(qiáng)。這種誤差在整個(gè)視頻中都存在,如圖6所示。

CVPR論文詳解:在一場(chǎng)球賽中, AI是如何預(yù)判誰(shuí)將投籃

圖6

總結(jié)

本文中,我們介紹了一種在多人視頻中活動(dòng)分類和檢測(cè)的注意力模型。除了識(shí)別活動(dòng)之外,我們的模型還能在未訓(xùn)練的情況下識(shí)別出活動(dòng)中的關(guān)鍵人物。我們的方法可以在任何多人設(shè)置下使用。不過(guò),本文目的我們也介紹一種與之前所有方法都不同的,新的籃球視頻數(shù)據(jù)標(biāo)注方法。我們也評(píng)估了我們的模型在活動(dòng)中識(shí)別“投手”的能力,還將我們的模型識(shí)別方法在空間位置中可視化出來(lái)。

文中圖片來(lái)自 Detecting events and key actors in multi-person videos

via Stanford Vision Lab

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)