只要描述你想要看的东西,就可以制作出几乎以假乱真的高质量视频,无论是基于现实还是完全的异想天开。将文本转换成视频的人工智能算法一经问世,就立刻蹿红。而我们可能由此进入了一个“眼见不再为实”的世界。这项技术的诞生,无疑会对创意产业产生深远影响,但同时也可能导致网络媒体的信任危机。
(相关资料图)
有限学习资源限制技术完善
目前,Meta公司的Make-A-Video、谷歌的Imagen Video所生成的视频质量还较差,在努力复制真实世界时,有不少会留下人为假造的怪异视觉印象。
但早期的文本到图像模型同样也非常粗糙,非常不真实,不过图像质量很快得到了改善。眼下,从文本到视频模型需要解决的一个关键问题是,对图像运动和时间流逝关系的更深理解。
“你得到的是即时快照,不包含接下来会发生什么的信息,模型系统不理解因果关系,也不懂物理学常识。”Stability AI首席技术官汤姆·梅森表示。
另外,从文本到视频模型缺乏详细的、有标签的数据集,而文本到图像模型可以依赖于庞大的数据集来进行训练。Make-A-Video只能让人工智能以“无监督”学习的方式,在大型视频网站上浏览扫描。Meta AI研究总监德维·帕里克指出,人工智能从无监督学习模式中学到的东西可能非常有限。他认为,文本到视频模型目前还未能达到文本到图像模型的水平。
“眼见不为实”带来风险隐忧
即便如此,对于新出现的从文本到视频技术,人们已经开始产生了一些担忧。用来让人工智能学习的视频中,如果存在任何偏见,都有可能通过模型传播开来,并出现在后续生成的视频中。
“你会希望你的孩子仅仅通过网上视频,就能学到他们所需知道的人类社会的一切吗?”卡内基伦理与国际事务委员会的亚瑟·霍兰德·米歇尔说道。
在错误信息和误导信息泛滥的网络世界里,偏见并非是唯一的隐忧。人工智能创造完美视频的能力越强,就越能以假乱真,让人难辨真假。
首次人工智能驱动的视频篡改事件,早在几年前就曾出现。例如,深度伪造(deep fakes)技术可以把一个人的头部照片安放在另一个人的身体上。当时就有人提出警告:这种技术将导致网络媒体信任度下降。
过去,要创造以假乱真的效果并非易事,因为那时还需要高超的技术能力。但如今有了从文本到视频生成模型这一利器,技术上的易懂性和易使用性将会大大提高。换言之,只要是稍懂一点这方面技术的人,就有可能创建出可信度极高的造假视频。
为应对深度造假和人们对文本转视频的担忧,英国斯旺西大学的伊冯·麦克德莫特·里斯和她的同事们启动了一项为期五年的项目,对人们对网络媒体态度的变化进行评测。研究表明,人们在网上相信和分享哪种媒体往往与个人的先入之见有关,哪怕看出视频可能造假。
立法能否跟上技术进步
当被问及Make-A-Video是否会被用来传播虚假信息时,Meta的一位发言人表示:“作为研究的一部分,我们将继续探索,进一步完善和降低潜在风险的方法。”例如,对AI培训数据进行严格审查和过滤,以减少它们接触到有争议、有问题的内容。
除了可能促成虚假信息泛滥,从文本到视频的技术还将对创意产业造成极大影响,因为许多图像和视频都是版权作品。从研究成果转向商业产品,人工智能的输出结果也将面临法律上的挑战。虽然到目前为止还很少出现相关的诉讼案例,但训练人工智能或人工智能输出的过程,都有可能成为一种新形式的版权侵权。
这意味着可能需要引入新的相关法律,然而目前尚不清楚立法是否能跟上人工智能技术的发展速度。英国纽卡斯尔大学的莉莲·爱德华兹说:“在某种程度上,法律已经做了能做的大部分事情。作为一种现象,假新闻普遍存在的一个问题是,它‘并不明显违法’,但却带来危害。”她说,从文本到视频的人工智能输出也存在同样的问题。为了保持人们对网络视频的信任度,一种可能的解决方法是使用认证证书,以明确视频的来源和创建方式。
作者:宇辰/编译
编辑:许琦敏
图片:pixabay
责任编辑:任荃
*文汇独家稿件,转载请注明出处。
Copyright @ 2015-2022 中国IT时代网版权所有 备案号: 沪ICP备2022005074号-4 联系邮箱:58 55 97 3@qq.com