首頁(yè)>資訊 >
Deepfake持續(xù)進(jìn)化:無限接近于真實(shí),但仍非真實(shí) 2022-02-25 14:17:01  來源:36氪

你有過在社交媒體上把AI合成的用戶頭像當(dāng)真的經(jīng)歷嗎?在“深度偽造”(Deepfake)技術(shù)趨近于真實(shí),甚至已經(jīng)繞過了恐怖谷效應(yīng)的今天,“真”與“假”之間的界限一度被重新定義。

作為“深度偽造”技術(shù)目前最重要的表現(xiàn)形式之一,AI合成技術(shù) 已經(jīng)被廣泛應(yīng)用在大眾娛樂領(lǐng)域,例如 電影配音、游戲角色、電視直播中都出現(xiàn)了它的身影。與此同時(shí),大眾也越來越多地利用這項(xiàng)技術(shù)來創(chuàng)作內(nèi)容。

然而,技術(shù)應(yīng)用也帶來了隱私和安全問題。 1月28日,網(wǎng)信辦在針對(duì)深度合成技術(shù)及內(nèi)容的征求意見稿中提出,深度合成服務(wù)提供者應(yīng)當(dāng)使用顯著方式對(duì)所生成的深度合成信息內(nèi)容進(jìn)行標(biāo)識(shí)。 若提供人臉、人聲等生物識(shí)別信息的顯著編輯功能,還需取得被編輯的個(gè)人信息主體的單獨(dú)同意。 [1]

“深度偽造”技術(shù)發(fā)展至今,有哪些變與不變?又是如何被應(yīng)用的?本期全媒派(ID:quanmeipai)帶你走進(jìn)真假難辨的虛擬世界,探討這項(xiàng)技術(shù)的發(fā)展是如何影響內(nèi)容創(chuàng)作和體驗(yàn)的。

更接近真實(shí)的換臉與合成語(yǔ)音

首先,我們?cè)倩仡櫼幌隆吧疃葌卧臁?,這是指以AI合成技術(shù)為核心、基于深度學(xué)習(xí)和虛擬現(xiàn)實(shí)等生成合成類算法制作文本、圖像、音頻、視頻或虛擬場(chǎng)景的技術(shù),主要包括以圖像形式存在的臉部替換、以音頻形式存在的聲音替換以及影像中臉部與聲音的同步替換。

自2018年發(fā)展至今,AI合成技術(shù)的更新迭代速度超乎想象,正在無限趨近于真實(shí),其中又以AI換臉技術(shù)和AI語(yǔ)音合成技術(shù)為代表。

AI換臉

眾多證據(jù)表明,AI人臉合成技術(shù)已經(jīng)發(fā)展到以假亂真的地步。譬如國(guó)外小有名氣的造臉網(wǎng)站This Person Does Not Exist就能提供一秒生成人像的AI造臉術(shù),逼真程度令人咂舌。再比如Generated Photos通過對(duì)龐大的真實(shí)人像數(shù)據(jù)庫(kù)的深度學(xué)習(xí),能自動(dòng)生成10萬(wàn)張人臉照片,允許用戶用作社交網(wǎng)站交友頭像等其他用途。[2]

也有研究表明,AI生成的人臉甚至可以比真實(shí)的人臉更自然。在加州伯克利大學(xué)近期一項(xiàng)研究中,315名隨機(jī)挑選的參與者被要求從800張圖片中分辨出400張AI生成人臉和400張真實(shí)人臉。兩組人臉分別涵蓋白人、黑人、東亞人和南亞人各100張。

結(jié)果顯示,315名參與者最終的正確率是48.2%,甚至低于隨機(jī)挑選的準(zhǔn)確率。隨后,研究者召集了另外219名參與者,提供識(shí)別AI合成臉的教學(xué)訓(xùn)練。這組參與者的最終正確率提升至59%,但研究者認(rèn)為“差別不大”。[3]

一組由AI合成技術(shù)生成的人臉,你看出來了嗎?圖片來源:New Scientist

AI合成語(yǔ)音

搭乘機(jī)器學(xué)習(xí)技術(shù)發(fā)展的快車,AI語(yǔ)音合成技術(shù)在近幾年同樣是突飛猛進(jìn)。 過去制作仿真語(yǔ)音通常需要先錄取一段真實(shí)的人聲,把一段話切割成單獨(dú)的語(yǔ)音單位,再像字母拼圖一樣重新拼合成新的語(yǔ)音片段。

而現(xiàn)在,人工智能已經(jīng)可以通過學(xué)習(xí)目標(biāo)人聲的語(yǔ)音數(shù)據(jù)而自動(dòng)生成一段內(nèi)容完全不同的音頻,更快,更便捷,也更真實(shí)自然。

相關(guān)應(yīng)用更是達(dá)到可以傳遞情緒、語(yǔ)氣的程度。例如在Sonantic公司設(shè)計(jì)的一款語(yǔ)音軟件上,用戶可以用文字打出想要生成的語(yǔ)音片段,并挑選他們想要傳遞的情緒,比如憤怒、恐懼、悲傷、愉悅或興奮。

此外,用戶還可以通過“導(dǎo)演模式”進(jìn)一步調(diào)節(jié)聲音的語(yǔ)調(diào)、語(yǔ)氣的強(qiáng)弱,甚至可以插入笑聲、呼吸聲等非語(yǔ)言類聲音,就像是“語(yǔ)音版的PS”。該公司目前不僅已經(jīng)和3A游戲公司、娛樂公司等達(dá)成合作,還成功在今年年初成為奔馳汽車的車載語(yǔ)音助手。[4]

Sonantic的用戶操作頁(yè)面。圖片來源:The Verge

在未來幾年,AI合成語(yǔ)音技術(shù)最廣泛的應(yīng)用場(chǎng)景可能是名人聲音克隆,即獲得明星名人的授權(quán)后用他們的聲音合成定制化語(yǔ)音并商用。一家名為Veirtone的美國(guó)公司在年初推出一項(xiàng)服務(wù),明星網(wǎng)紅們只需要簡(jiǎn)單授權(quán)就可以讓自己的聲音出現(xiàn)在廣告代言或電視廣播中。[5]

逐步影響日常內(nèi)容體驗(yàn)的“深度偽造”

不斷降低的技術(shù)門檻、合成類音視頻的強(qiáng)娛樂性和社交網(wǎng)絡(luò)的傳播屬性使得“深度偽造”內(nèi)容的用戶創(chuàng)作數(shù)量在互聯(lián)網(wǎng)上呈井噴式增長(zhǎng)。

《深度合成十大趨勢(shì)(2022)報(bào)告》顯示,互聯(lián)網(wǎng)深度合成內(nèi)容創(chuàng)作與傳播數(shù)量呈指數(shù)級(jí)增長(zhǎng),國(guó)內(nèi)外十大音視頻平臺(tái)(騰訊視頻、愛奇藝、優(yōu)酷、嗶哩嗶哩、抖音、快手、微博、YouTube、Twitter、TikTok)內(nèi)的深度合成視頻的點(diǎn)贊量就高達(dá)3.16億。[6]

圖片來源:《深度合成十大趨勢(shì)(2022)報(bào)告》

“深度偽造”技術(shù)不再是科技公司的專屬,也不再局限于影視作品和廣告營(yíng)銷中,越來越多相關(guān)應(yīng)用和平臺(tái)的出現(xiàn)讓普通大眾也可以在更廣泛的場(chǎng)景中體驗(yàn)AI生成。

AI播客剪輯

Descript就是一款由美國(guó)同名公司使用AI合成語(yǔ)音技術(shù)研發(fā)的播客編輯軟件。用戶可以通過AI語(yǔ)音克隆技術(shù)編輯甚至創(chuàng)作自己的專屬音頻內(nèi)容。使用軟件的“疊錄”功能克隆并生成自己的AI人聲后,只需要通過編輯轉(zhuǎn)錄的文字就可以調(diào)整音頻,用戶可以直接刪減或增添文字來更改音頻內(nèi)容,頁(yè)面對(duì)于用戶使用來說也十分簡(jiǎn)單、易操作。 [7]

制造視頻迷因

AI換臉技術(shù)也正在憑借FakeApp和DeepFaceLab等工具走向普羅大眾。去年在短視頻上爆火并快速席卷海內(nèi)外社交媒體的湯姆·克魯斯換臉視頻就是一個(gè)有力的佐證。在視頻中,一個(gè)從長(zhǎng)相到聲音都酷似湯姆·克魯斯的“人”或是穿著花襯衫表演“硬幣戲法”,或是在街頭某家男裝店閑逛,做出一些與好萊塢巨星身份存在巨大反差的舉動(dòng)。

這些視頻均出自視覺特效藝術(shù)家Chris Umé之手。他找到湯姆·克魯斯的頂級(jí)模仿者進(jìn)行合作,并使用“深度偽造”技術(shù)創(chuàng)作出這些爆款視頻。事實(shí)證明,高度普及的社交媒體和先進(jìn)的AI合成技術(shù)使得“深度偽造”內(nèi)容 具備隨時(shí)隨地成為“網(wǎng)絡(luò)迷因”的潛力。

湯姆·克魯斯在tiktok上的“深度偽造”視頻截圖。圖片來源:tiktok@deeptomcruise

“復(fù)刻親人”

以色列公司D-ID所創(chuàng)建的視頻技術(shù)平臺(tái)Deep Nostalgia更是在圈內(nèi)造成不小的轟動(dòng)。通過使用平臺(tái)提供的AI人臉生成服務(wù),用戶可以重新上傳已故親人的圖片,生成會(huì)動(dòng)的影像。視頻中的“親人”能夠做出眨眼、微笑、點(diǎn)頭等一系列動(dòng)作,用戶可以獲得一種和“活人”面對(duì)面的視覺效果,借助AI合成技術(shù)讓逝者在網(wǎng)絡(luò)空間中“活”過來已經(jīng)不再是天方夜譚。

深度偽造+內(nèi)容創(chuàng)作的邊界與未來

當(dāng)“深度偽造”技術(shù)逐漸“平民化”,互聯(lián)網(wǎng)用戶在內(nèi)容創(chuàng)作上將會(huì)有更多元的選擇和創(chuàng)新。不難想象在不遠(yuǎn)的將來可能會(huì)有一款游戲,玩家可以在角色創(chuàng)建頁(yè)面中生成并使用自己的AI人聲,更沉浸式地體驗(yàn)游戲里的世界。

然而,當(dāng)“真”與“假”之間的界限被技術(shù)的迭代更新反復(fù)沖刷,內(nèi)容創(chuàng)作與傳播的邊界又該如何被重新界定?法律、道德和倫理始終是我們無法回避的命題。

早在2019年3月,《華爾街日?qǐng)?bào)》就曾報(bào)道過一起詐騙案件:犯罪分子使用AI語(yǔ)音合成技術(shù),冒出德國(guó)老板的聲音,欺詐“下屬”英國(guó)子公司負(fù)責(zé)人轉(zhuǎn)賬了約合人民幣173萬(wàn)元的款項(xiàng)。 [8] 除信息詐騙等犯罪行為之外,這項(xiàng)技術(shù)目前造成的最大威脅依然是未經(jīng)本人允許創(chuàng)作或傳播的色情視頻。

而對(duì)于社交網(wǎng)絡(luò)而言,“深度偽造”技術(shù)目前最主要的隱患在于傳播錯(cuò)誤信息,影響公眾輿論。當(dāng)“眼見”不一定“為實(shí)”,真實(shí)信息的公信力將大幅度降低。再加之互聯(lián)網(wǎng)的傳播能力,真假信息之間會(huì)越來越難以分辨。

既然音視頻可以以假亂真,任何人都可以污蔑真實(shí)內(nèi)容為合成技術(shù)的產(chǎn)物,以試圖顛倒黑白、逃避責(zé)任,甚至引發(fā)公眾對(duì)真實(shí)信息的大規(guī)模質(zhì)疑,即所謂的“騙子的紅利”。[9]這可能會(huì)是“深度偽造”技術(shù)對(duì)真實(shí)世界造成的最嚴(yán)峻的考驗(yàn)之一。

弗吉尼亞大學(xué)應(yīng)用倫理學(xué)榮譽(yù)教授Deborah Johnson在最近創(chuàng)作的《我們?cè)撊绾螒?yīng)對(duì)“深度偽造”技術(shù)》一書中也提到,“深度偽造”技術(shù)會(huì)嚴(yán)重影響官方媒體的公信力和網(wǎng)絡(luò)信息的可信度。

“我們將不再相信我在網(wǎng)絡(luò)上看到和聽到的一切”。但與此同時(shí),用標(biāo)簽標(biāo)記可能是應(yīng)對(duì)這類威脅最簡(jiǎn)單快速的方法,“如果觀看視頻的人事先知道它是AI合成的,可能會(huì)比較不容易受騙”。[10]

然而,如何在恰當(dāng)標(biāo)記合成內(nèi)容的同時(shí)不破壞創(chuàng)作者的意圖?又如何界定相關(guān)內(nèi)容涉及到的性別、年齡、種族等一系列倫理問題?這無疑給內(nèi)容管理者拋出了一長(zhǎng)串難題。

紐卡斯?fàn)柎髮W(xué)法學(xué)院的Lilian Edwards教授提出,AI合成內(nèi)容被商用后的所有權(quán)和使用權(quán)也值得探討。例如,當(dāng)使用已故演員Steve McQueen的人臉生成視頻作為商業(yè)化用途時(shí),他的家人是否能夠擁有視頻的所有權(quán)并從中獲利,仍有待商榷?!澳壳懊總€(gè)國(guó)家的相關(guān)規(guī)定都略有不同”。[11]

即便牽扯到種種錯(cuò)綜復(fù)雜的問題也并不影響一個(gè)趨勢(shì)即將成為事實(shí):在不遠(yuǎn)的未來,“深度偽造”技術(shù)將走進(jìn)千家萬(wàn)戶,每個(gè)人都可以通過AI合成克隆自己的人臉和聲音,并用于短視頻、直播、交互媒體等更廣闊的領(lǐng)域。然而,無限接近于真實(shí),卻依然不是真實(shí),在這宏偉藍(lán)圖背后可能暗藏的隱患和還未浮現(xiàn)的新挑戰(zhàn),仍然有待書寫和填補(bǔ)。

參考鏈接:

[1]https://m.mp.oeeee.com/a/BAAFRD000020220129648488.html

[2]AI-Generated Faces: What Makes a Human a Human?

https://www.shutterstock.com/blog/ai-generated-faces-what-makes-a-human

[3]Fake faces created by AI look more trustworthy than real people

https://www.newscientist.com/article/2308312-fake-faces-created-by-ai-look-more-trustworthy-than-real-people/

[4] Listen to an AI voice actor try and flirt with you

https://www.theverge.com/2022/2/17/22936978/ai-voice-speech-synthesis-audio-deepfake-sonantic-flirtation

[5][7]

EVERYONE WILL BE ABLE TO CLONE THEIR VOICE IN THE FUTURE

https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast

[6]《深度合成十大趨勢(shì)(2022)報(bào)告》

https://www.iczhiku.com/hotspotDetail/uvDLklAJE6mJZK6uCmFzRA==

[8]https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

[9]The impact of deepfakes: How do you know when a video is real?

https://www.cbsnews.com/news/deepfakes-real-fake-videos-60-minutes-2021-10-10/

[10][11]

https://edition.cnn.com/videos/business/2021/03/02/tom-cruise-tiktok-deepfake-orig.cnn-business

今日互動(dòng)

你曾經(jīng)消費(fèi)過哪些由AI合成的內(nèi)容?或使用過哪些AI合成應(yīng)用?你如何看待此類技術(shù)的普及化?

本文來自微信公眾號(hào) “全媒派”(ID:quanmeipai),作者:Jinji,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: Deepfake

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片