来自 科技 2021-01-05 14:29 的文章

男人的资格 神话AI换脸越来越溜儿 谁能阻止它走向堕落

  Deepfake是一种换脸技术,可以将图片或视频中A的脸换到B的头上。其名字由深度机器学习(deep machine learning)和假照片(fake photo)组合而成。这项技术不需要操作者具备深厚的专业知识,只要收集到足够素材,AI就可以完成。Deepfake换脸效果逼真,让人难以分辨真假,这也引发了众多伦理和隐私问题。

  史泰龙和施瓦辛格两位好莱坞顶级流量功夫巨星最近一次合体出现在大银幕上,还是在2013年上映的《金蝉脱壳》中,这让不少影迷意犹未尽。11月22日,一篇报道称,国外视频网站上一部名为《Step Brother》的电影短片,借助Deepfake技术,把两位巨星的面部替换到了两名小众演员脸上,而且人脸表情自然,毫无痕迹,这让不少网友惊叹:太恐怖。此外,在最近的国内热播剧《了不起的儿科医生》中也使用了这种AI换脸技术。

  根据安全分析公司Sensity最新调查结果,自2018年12月以来,Deepfake在线造假视频的数量大约每6个月翻一番,而截至2020年6月,造假视频已经多达49081个,比2019年7月增长了330%。

  Deepfake技术让视频换脸变得越来越简单,如何打假“李鬼”,让其避免成为假视频的“帮凶”已成为当务之急。

  用视频“大变活人”分几步

  Deepfake这种技术堪称现代网络“易容术”,是比PS强大很多的动态换脸技术。“目前Deepfake技术已经很成熟了,主要技术分为两个部分,自动编码器和生成对抗网络。”天津大学智能与计算学部教授翁仲铭介绍。

  自动编码器是一种神经网络技术,就是把一个人的照片特征抓取出来,然后用数字代表。但是抓取一个人的面部特征时,不可能抓取所有状态下的特征,比如说话、哭和笑等,那么就必须将没有的表情用数字模拟的方式展现出来。通过训练,就可以找出一个最好的用数学方式来呈现照片特征的编码器。

  有编码器就需要解码器,解码器会把一串串数字再还原成照片。不同解码器可以在演员身上还原不同照片,比如史泰龙解码器可以还原史泰龙照片,而还原施瓦辛格照片则需要施瓦辛格的解码器。具体操作是先使用编码器分别抽取小众演员和史泰龙的特征,而后再使用史泰龙的解码器还原,从而得到史泰龙的脸和小众演员的表情。

  “Deepfake就是在设计、训练精准的编码器和解码器。”翁仲铭介绍,因为编码器是抓取照片的特征,所以基本上只需要一套就可以了。可是解码器就需要训练很久,因为把一连串的数字特征,拼接到小众演员身上,而且要变得很像,就需要长时间训练。以换成史泰龙的脸为例,这个过程需要输入史泰龙600—3000张照片并经过48—72小时来训练深度模型。

  “自动编码器做出的照片是否自然真实还需要去判别把关,这就需要生成对抗网络技术。”翁仲铭解释,这包括两个机器学习模型,分别为生成网络和辨别网络。生成网络扮演“造假者”,在模型训练后产生伪造影片;而辨别网络则扮演“检测者”,不断地检视假影片,直至它再辨别不了结果是假的。数据越多,效果越理想,假影片越真实。

  换脸门槛越来越低

  其实这种动态换脸技术最早是被用于影视后期制作,但是以前影视作品中的人脸交换操作起来非常复杂,只有专业视频剪辑师和公共网关接口专家才能完成,并且需要花费大量时间和精力。

  但随着Deepfake这样公开且轻量化技术的出现,这个技术的使用门槛也越来越低了。特别是设计架构Deepfake技术的“大神”将代码上传到了一个自由共享代码的网站Github,让这项技术更容易获得。

  利用Deepfake技术,即使是一个对视频剪辑一窍不通的外行,也只需一个强大的GPU(图形处理器)和上百张人物样图,输入至少一个算法,就能完成人脸交换,并且可以制作出非常逼真的视频效果。“普通人在经过一段时间的学习以后,完全能够掌握这项技术。”翁仲铭感叹。

  “虽然现在这项技术操作起来简便,但是原来要用软件实现这个过程是非常艰难的。”翁仲铭解释,视频中人是动态的,比如一个60帧(fps)的视频中,每秒钟画面更新60次,如果是PS的话需要处理60张静态图片,然后将其前后连接起来形成一个动态图。一个短视频动辄数分钟,甚至十多分钟,如果按照一分钟处理3600张计算,一个几分钟的短片也要处理多达上万张照片,所以需要强大算力的GPU来支撑。

})();