国产成人精品成人a在线观看,日韩AV视频在线看

Deepfake持續(xù)進(jìn)化：無限接近于真實(shí)，但仍非真實(shí) 2022-02-25 14:17:01　　來源：36氪

你有過在社交媒體上把AI合成的用戶頭像當(dāng)真的經(jīng)歷嗎？在“深度偽造”（Deepfake）技術(shù)趨近于真實(shí)，甚至已經(jīng)繞過了恐怖谷效應(yīng)的今天，“真”與“假”之間的界限一度被重新定義。

作為“深度偽造”技術(shù)目前最重要的表現(xiàn)形式之一，AI合成技術(shù) 已經(jīng)被廣泛應(yīng)用在大眾娛樂領(lǐng)域，例如電影配音、游戲角色、電視直播中都出現(xiàn)了它的身影。與此同時(shí)，大眾也越來越多地利用這項(xiàng)技術(shù)來創(chuàng)作內(nèi)容。

然而，技術(shù)應(yīng)用也帶來了隱私和安全問題。 1月28日，網(wǎng)信辦在針對(duì)深度合成技術(shù)及內(nèi)容的征求意見稿中提出，深度合成服務(wù)提供者應(yīng)當(dāng)使用顯著方式對(duì)所生成的深度合成信息內(nèi)容進(jìn)行標(biāo)識(shí)。若提供人臉、人聲等生物識(shí)別信息的顯著編輯功能，還需取得被編輯的個(gè)人信息主體的單獨(dú)同意。 [1]

“深度偽造”技術(shù)發(fā)展至今，有哪些變與不變？又是如何被應(yīng)用的？本期全媒派（ID：quanmeipai）帶你走進(jìn)真假難辨的虛擬世界，探討這項(xiàng)技術(shù)的發(fā)展是如何影響內(nèi)容創(chuàng)作和體驗(yàn)的。

更接近真實(shí)的換臉與合成語(yǔ)音

首先，我們?cè)倩仡櫼幌隆吧疃葌卧臁?，這是指以AI合成技術(shù)為核心、基于深度學(xué)習(xí)和虛擬現(xiàn)實(shí)等生成合成類算法制作文本、圖像、音頻、視頻或虛擬場(chǎng)景的技術(shù)，主要包括以圖像形式存在的臉部替換、以音頻形式存在的聲音替換以及影像中臉部與聲音的同步替換。

自2018年發(fā)展至今，AI合成技術(shù)的更新迭代速度超乎想象，正在無限趨近于真實(shí)，其中又以AI換臉技術(shù)和AI語(yǔ)音合成技術(shù)為代表。

AI換臉

眾多證據(jù)表明，AI人臉合成技術(shù)已經(jīng)發(fā)展到以假亂真的地步。譬如國(guó)外小有名氣的造臉網(wǎng)站This Person Does Not Exist就能提供一秒生成人像的AI造臉術(shù)，逼真程度令人咂舌。再比如Generated Photos通過對(duì)龐大的真實(shí)人像數(shù)據(jù)庫(kù)的深度學(xué)習(xí)，能自動(dòng)生成10萬(wàn)張人臉照片，允許用戶用作社交網(wǎng)站交友頭像等其他用途。[2]

也有研究表明，AI生成的人臉甚至可以比真實(shí)的人臉更自然。在加州伯克利大學(xué)近期一項(xiàng)研究中，315名隨機(jī)挑選的參與者被要求從800張圖片中分辨出400張AI生成人臉和400張真實(shí)人臉。兩組人臉分別涵蓋白人、黑人、東亞人和南亞人各100張。

結(jié)果顯示，315名參與者最終的正確率是48.2%，甚至低于隨機(jī)挑選的準(zhǔn)確率。隨后，研究者召集了另外219名參與者，提供識(shí)別AI合成臉的教學(xué)訓(xùn)練。這組參與者的最終正確率提升至59%，但研究者認(rèn)為“差別不大”。[3]

一組由AI合成技術(shù)生成的人臉，你看出來了嗎？圖片來源：New Scientist

AI合成語(yǔ)音

搭乘機(jī)器學(xué)習(xí)技術(shù)發(fā)展的快車，AI語(yǔ)音合成技術(shù)在近幾年同樣是突飛猛進(jìn)。過去制作仿真語(yǔ)音通常需要先錄取一段真實(shí)的人聲，把一段話切割成單獨(dú)的語(yǔ)音單位，再像字母拼圖一樣重新拼合成新的語(yǔ)音片段。

而現(xiàn)在，人工智能已經(jīng)可以通過學(xué)習(xí)目標(biāo)人聲的語(yǔ)音數(shù)據(jù)而自動(dòng)生成一段內(nèi)容完全不同的音頻，更快，更便捷，也更真實(shí)自然。

相關(guān)應(yīng)用更是達(dá)到可以傳遞情緒、語(yǔ)氣的程度。例如在Sonantic公司設(shè)計(jì)的一款語(yǔ)音軟件上，用戶可以用文字打出想要生成的語(yǔ)音片段，并挑選他們想要傳遞的情緒，比如憤怒、恐懼、悲傷、愉悅或興奮。

此外，用戶還可以通過“導(dǎo)演模式”進(jìn)一步調(diào)節(jié)聲音的語(yǔ)調(diào)、語(yǔ)氣的強(qiáng)弱，甚至可以插入笑聲、呼吸聲等非語(yǔ)言類聲音，就像是“語(yǔ)音版的PS”。該公司目前不僅已經(jīng)和3A游戲公司、娛樂公司等達(dá)成合作，還成功在今年年初成為奔馳汽車的車載語(yǔ)音助手。[4]

Sonantic的用戶操作頁(yè)面。圖片來源：The Verge

在未來幾年，AI合成語(yǔ)音技術(shù)最廣泛的應(yīng)用場(chǎng)景可能是名人聲音克隆，即獲得明星名人的授權(quán)后用他們的聲音合成定制化語(yǔ)音并商用。一家名為Veirtone的美國(guó)公司在年初推出一項(xiàng)服務(wù)，明星網(wǎng)紅們只需要簡(jiǎn)單授權(quán)就可以讓自己的聲音出現(xiàn)在廣告代言或電視廣播中。[5]

逐步影響日常內(nèi)容體驗(yàn)的“深度偽造”

不斷降低的技術(shù)門檻、合成類音視頻的強(qiáng)娛樂性和社交網(wǎng)絡(luò)的傳播屬性使得“深度偽造”內(nèi)容的用戶創(chuàng)作數(shù)量在互聯(lián)網(wǎng)上呈井噴式增長(zhǎng)。

《深度合成十大趨勢(shì)（2022）報(bào)告》顯示，互聯(lián)網(wǎng)深度合成內(nèi)容創(chuàng)作與傳播數(shù)量呈指數(shù)級(jí)增長(zhǎng)，國(guó)內(nèi)外十大音視頻平臺(tái)（騰訊視頻、愛奇藝、優(yōu)酷、嗶哩嗶哩、抖音、快手、微博、YouTube、Twitter、TikTok）內(nèi)的深度合成視頻的點(diǎn)贊量就高達(dá)3.16億。[6]

圖片來源：《深度合成十大趨勢(shì)（2022）報(bào)告》

“深度偽造”技術(shù)不再是科技公司的專屬，也不再局限于影視作品和廣告營(yíng)銷中，越來越多相關(guān)應(yīng)用和平臺(tái)的出現(xiàn)讓普通大眾也可以在更廣泛的場(chǎng)景中體驗(yàn)AI生成。

AI播客剪輯

Descript就是一款由美國(guó)同名公司使用AI合成語(yǔ)音技術(shù)研發(fā)的播客編輯軟件。用戶可以通過AI語(yǔ)音克隆技術(shù)編輯甚至創(chuàng)作自己的專屬音頻內(nèi)容。使用軟件的“疊錄”功能克隆并生成自己的AI人聲后，只需要通過編輯轉(zhuǎn)錄的文字就可以調(diào)整音頻，用戶可以直接刪減或增添文字來更改音頻內(nèi)容，頁(yè)面對(duì)于用戶使用來說也十分簡(jiǎn)單、易操作。 [7]

制造視頻迷因

AI換臉技術(shù)也正在憑借FakeApp和DeepFaceLab等工具走向普羅大眾。去年在短視頻上爆火并快速席卷海內(nèi)外社交媒體的湯姆·克魯斯換臉視頻就是一個(gè)有力的佐證。在視頻中，一個(gè)從長(zhǎng)相到聲音都酷似湯姆·克魯斯的“人”或是穿著花襯衫表演“硬幣戲法”，或是在街頭某家男裝店閑逛，做出一些與好萊塢巨星身份存在巨大反差的舉動(dòng)。

這些視頻均出自視覺特效藝術(shù)家Chris Umé之手。他找到湯姆·克魯斯的頂級(jí)模仿者進(jìn)行合作，并使用“深度偽造”技術(shù)創(chuàng)作出這些爆款視頻。事實(shí)證明，高度普及的社交媒體和先進(jìn)的AI合成技術(shù)使得“深度偽造”內(nèi)容具備隨時(shí)隨地成為“網(wǎng)絡(luò)迷因”的潛力。

湯姆·克魯斯在tiktok上的“深度偽造”視頻截圖。圖片來源：tiktok@deeptomcruise

“復(fù)刻親人”

以色列公司D-ID所創(chuàng)建的視頻技術(shù)平臺(tái)Deep Nostalgia更是在圈內(nèi)造成不小的轟動(dòng)。通過使用平臺(tái)提供的AI人臉生成服務(wù)，用戶可以重新上傳已故親人的圖片，生成會(huì)動(dòng)的影像。視頻中的“親人”能夠做出眨眼、微笑、點(diǎn)頭等一系列動(dòng)作，用戶可以獲得一種和“活人”面對(duì)面的視覺效果，借助AI合成技術(shù)讓逝者在網(wǎng)絡(luò)空間中“活”過來已經(jīng)不再是天方夜譚。

深度偽造+內(nèi)容創(chuàng)作的邊界與未來

當(dāng)“深度偽造”技術(shù)逐漸“平民化”，互聯(lián)網(wǎng)用戶在內(nèi)容創(chuàng)作上將會(huì)有更多元的選擇和創(chuàng)新。不難想象在不遠(yuǎn)的將來可能會(huì)有一款游戲，玩家可以在角色創(chuàng)建頁(yè)面中生成并使用自己的AI人聲，更沉浸式地體驗(yàn)游戲里的世界。

然而，當(dāng)“真”與“假”之間的界限被技術(shù)的迭代更新反復(fù)沖刷，內(nèi)容創(chuàng)作與傳播的邊界又該如何被重新界定？法律、道德和倫理始終是我們無法回避的命題。

早在2019年3月，《華爾街日?qǐng)?bào)》就曾報(bào)道過一起詐騙案件：犯罪分子使用AI語(yǔ)音合成技術(shù)，冒出德國(guó)老板的聲音，欺詐“下屬”英國(guó)子公司負(fù)責(zé)人轉(zhuǎn)賬了約合人民幣173萬(wàn)元的款項(xiàng)。 [8] 除信息詐騙等犯罪行為之外，這項(xiàng)技術(shù)目前造成的最大威脅依然是未經(jīng)本人允許創(chuàng)作或傳播的色情視頻。

而對(duì)于社交網(wǎng)絡(luò)而言，“深度偽造”技術(shù)目前最主要的隱患在于傳播錯(cuò)誤信息，影響公眾輿論。當(dāng)“眼見”不一定“為實(shí)”，真實(shí)信息的公信力將大幅度降低。再加之互聯(lián)網(wǎng)的傳播能力，真假信息之間會(huì)越來越難以分辨。

既然音視頻可以以假亂真，任何人都可以污蔑真實(shí)內(nèi)容為合成技術(shù)的產(chǎn)物，以試圖顛倒黑白、逃避責(zé)任，甚至引發(fā)公眾對(duì)真實(shí)信息的大規(guī)模質(zhì)疑，即所謂的“騙子的紅利”。[9]這可能會(huì)是“深度偽造”技術(shù)對(duì)真實(shí)世界造成的最嚴(yán)峻的考驗(yàn)之一。

弗吉尼亞大學(xué)應(yīng)用倫理學(xué)榮譽(yù)教授Deborah Johnson在最近創(chuàng)作的《我們?cè)撊绾螒?yīng)對(duì)“深度偽造”技術(shù)》一書中也提到，“深度偽造”技術(shù)會(huì)嚴(yán)重影響官方媒體的公信力和網(wǎng)絡(luò)信息的可信度。

“我們將不再相信我在網(wǎng)絡(luò)上看到和聽到的一切”。但與此同時(shí)，用標(biāo)簽標(biāo)記可能是應(yīng)對(duì)這類威脅最簡(jiǎn)單快速的方法，“如果觀看視頻的人事先知道它是AI合成的，可能會(huì)比較不容易受騙”。[10]

然而，如何在恰當(dāng)標(biāo)記合成內(nèi)容的同時(shí)不破壞創(chuàng)作者的意圖？又如何界定相關(guān)內(nèi)容涉及到的性別、年齡、種族等一系列倫理問題？這無疑給內(nèi)容管理者拋出了一長(zhǎng)串難題。

紐卡斯?fàn)柎髮W(xué)法學(xué)院的Lilian Edwards教授提出，AI合成內(nèi)容被商用后的所有權(quán)和使用權(quán)也值得探討。例如，當(dāng)使用已故演員Steve McQueen的人臉生成視頻作為商業(yè)化用途時(shí)，他的家人是否能夠擁有視頻的所有權(quán)并從中獲利，仍有待商榷?！澳壳懊總€(gè)國(guó)家的相關(guān)規(guī)定都略有不同”。[11]

即便牽扯到種種錯(cuò)綜復(fù)雜的問題也并不影響一個(gè)趨勢(shì)即將成為事實(shí)：在不遠(yuǎn)的未來，“深度偽造”技術(shù)將走進(jìn)千家萬(wàn)戶，每個(gè)人都可以通過AI合成克隆自己的人臉和聲音，并用于短視頻、直播、交互媒體等更廣闊的領(lǐng)域。然而，無限接近于真實(shí)，卻依然不是真實(shí)，在這宏偉藍(lán)圖背后可能暗藏的隱患和還未浮現(xiàn)的新挑戰(zhàn)，仍然有待書寫和填補(bǔ)。