與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣

本文作者：楊鯉萍

2019-09-27 18:21

導(dǎo)語(yǔ)：讓 Deepfake 假視頻無(wú)處遁形

雷鋒網(wǎng) AI 開(kāi)發(fā)者按：在不久前，F(xiàn)acebook 發(fā)起了 Deepfakes 檢測(cè)挑戰(zhàn)賽；而近日，谷歌 AI 就跟著強(qiáng)勢(shì)推出了 Deepfake 視頻檢測(cè)數(shù)據(jù)集，勢(shì)將一同與假視頻死磕到底。

（Deepfakes 檢測(cè)挑戰(zhàn)賽詳情：http://www.ozgbdpf.cn/news/201909/2T95wJf5RRTycmkT.html?type=preview&sign=g3d2q7B6dqqAdnGqs6V5YoCdn5aEh33agquWoQ）

該數(shù)據(jù)集一共包含了來(lái)自 28 個(gè)不同場(chǎng)景下，由真人演員現(xiàn)場(chǎng)拍攝的 3000 多段視頻。谷歌希望能夠通過(guò)這些視頻數(shù)據(jù)，更好的維護(hù)整個(gè)社會(huì)的網(wǎng)絡(luò)安全環(huán)境，并使得開(kāi)發(fā)者能夠利用這些數(shù)據(jù)，開(kāi)發(fā)新的 Deepfake 檢測(cè)工具，更高效地識(shí)別 Deepfake 假視頻。谷歌在博客上發(fā)表了相應(yīng)的文章來(lái)介紹這一數(shù)據(jù)集，雷鋒網(wǎng) AI 開(kāi)發(fā)者將其整理編譯如下。

與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣

Deepfake 視頻檢測(cè)數(shù)據(jù)集背景

近幾年來(lái)，深度學(xué)習(xí)的發(fā)展催生了曾經(jīng)被認(rèn)為不可能實(shí)現(xiàn)的技術(shù)?，F(xiàn)代生成模型就是其中的一個(gè)例子，它能夠合成超現(xiàn)實(shí)主義的圖像、語(yǔ)音、音樂(lè)甚至視頻。這些模型已經(jīng)被廣泛應(yīng)用于各種各樣的應(yīng)用中，包括：通過(guò)文本到語(yǔ)音的方式使世界各國(guó)的人變得更容易溝通，或者是用以生成醫(yī)學(xué)成像的訓(xùn)練數(shù)據(jù)等。

與任何變革性技術(shù)一樣，這些技術(shù)也帶來(lái)了新的挑戰(zhàn)。所謂的「Deepfake」就是其中之一，它可以由能夠操縱視頻和音頻剪輯的深度生成模型制作而得。自從 2017 年底首次出現(xiàn)以來(lái)，就有許多開(kāi)源的 Deepfake 生成方法流于市面，導(dǎo)致合成媒體剪輯視頻的數(shù)量不斷增加。雖然許多人可能只是出于趣味性的目的，但一旦落入不法分子手里，這一技術(shù)也可能對(duì)個(gè)人和社會(huì)造成極大的危害。

與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣

谷歌認(rèn)真考慮了這些問(wèn)題。正如他們?nèi)ツ暝凇度斯ぶ悄茉瓌t》中發(fā)表的那樣：「我們致力于開(kāi)發(fā) AI 的最佳實(shí)踐，以減少技術(shù)的濫用所帶來(lái)的潛在危害?！?/p>

去年 1 月，谷歌宣布發(fā)布一個(gè)合成語(yǔ)音數(shù)據(jù)集，以支持開(kāi)發(fā)高性能合成音頻檢測(cè)器的國(guó)際挑戰(zhàn)賽。作為該挑戰(zhàn)賽的一部分，該數(shù)據(jù)集只供給共計(jì)有超過(guò) 150 個(gè)研究機(jī)構(gòu)和工業(yè)組織進(jìn)行下載；而從此刻刻起，數(shù)據(jù)集開(kāi)始免費(fèi)向公眾開(kāi)發(fā)。

Deepfake 視頻檢測(cè)數(shù)據(jù)集介紹

谷歌現(xiàn)在開(kāi)始與 Jigsaw 合作，并發(fā)布了一個(gè)自制的大型可視化數(shù)據(jù)集，該數(shù)據(jù)集已被納入 Face Forensics 視頻基準(zhǔn)測(cè)試。這一基準(zhǔn)測(cè)試是德國(guó)慕尼黑工業(yè)大學(xué)和意大利那不勒斯腓特烈二世大學(xué)開(kāi)發(fā)的圖像測(cè)試。將這些數(shù)據(jù)納入 Face Forensics 視頻基準(zhǔn)的是由包括 Matthias Niessner 教授、Luisa Verdriva 教授和 Face Forensics 團(tuán)隊(duì)在內(nèi)的主要研究人員合作進(jìn)行開(kāi)發(fā)。

與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣

谷歌對(duì) Face Forensics 基準(zhǔn)測(cè)試貢獻(xiàn)的視頻樣本。為了生成這些樣本，研究者隨機(jī)選擇了幾對(duì)演員，并利用深層神經(jīng)網(wǎng)絡(luò)將一個(gè)演員的臉交換到另一個(gè)演員的頭上，詳細(xì)地址：https://www.youtube.com/watch?v=x2g48Q2I2ZQ

為了制作這個(gè)數(shù)據(jù)集，在過(guò)去的一年里，谷歌與眾多演員合作錄制了數(shù)百段視頻；并使用公開(kāi)的 deepfake 生成方法，從這些視頻中創(chuàng)建了數(shù)千個(gè) Deepfake 假視頻。

這些由真實(shí)視頻和虛假視頻組成的數(shù)據(jù)集組成了可用于 Deepfake 檢測(cè)和識(shí)別的素材。作為 Face Forensics 基準(zhǔn)測(cè)試的一部分，該數(shù)據(jù)集現(xiàn)在已經(jīng)免費(fèi)提供給研究社區(qū)，研究者可以用來(lái)開(kāi)發(fā)合成視頻檢測(cè)的方法。

與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣

演員在各種場(chǎng)景下拍攝的視頻。圖片中上圖為真實(shí)視頻下圖為生成的 deepfake 視頻，兩者之間可能存在或微妙或劇烈的變化，這取決于拍攝演員本身

Face Forensics++與 Deepfake 檢測(cè)數(shù)據(jù)集

Face Forensics++是一個(gè)由 1000 個(gè)原始視頻序列組成的檢測(cè)數(shù)據(jù)集，這些視頻序列通過(guò)四種自動(dòng)面部操作方法進(jìn)行操作，即 deepfakes、face 2 face、faceswap 和 Neural Textures。這些數(shù)據(jù)來(lái)源于 977 個(gè) YouTube 視頻，所有視頻都包含一個(gè)可追蹤的大部分正面，沒(méi)有遮擋，這使得自動(dòng)篡改方法能夠生成真實(shí)的偽造。

由于該方法提供了二進(jìn)制掩碼，因此這一數(shù)據(jù)集可以用于圖像和視頻分類以及分割。此外，F(xiàn)ace Forensics++還提供 1000 個(gè) deepfakes 模型來(lái)生成和擴(kuò)充新數(shù)據(jù)。有關(guān)更多信息，請(qǐng)參閱我們最新的文件。（https://arxiv.org/abs/1901.08971）

新版本改進(jìn)內(nèi)容包括

Deepfake 檢測(cè)數(shù)據(jù)集——加入了谷歌與 Jigsaw 發(fā)布的 Deepfake 檢測(cè)數(shù)據(jù)集
數(shù)據(jù)集下載地址：https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html
Neural Textures——加入了使用 GANs 和 Neural Textures 進(jìn)行面部操作的方法
論文地址：https://arxiv.org/pdf/1904.12356.pdf

Deepfake 數(shù)據(jù)集的意義

隨著 DeepFake 技術(shù)的不斷發(fā)展，谷歌將添加更多內(nèi)容到這個(gè)數(shù)據(jù)集中，并繼續(xù)與該領(lǐng)域合作伙伴合作。通過(guò)給蓬勃發(fā)展的 AI 研究社區(qū)提供支持，谷歌也希望能夠減輕合成媒體濫用的潛在危害，這也正是在 faceforensics 基準(zhǔn)測(cè)試中加入 Deepfake 數(shù)據(jù)集的重要意義。

與假視頻死磕到底！谷歌 AI 開(kāi)源 Deepfake 檢測(cè)數(shù)據(jù)集，3000+ 真人親身上陣