Synthesia唇形同步技术全面解析附详细视频演示

Susan1 · 发表于 2018-11-26 13:53:03

Synthesia公司通过一个BBC项目完全脱离了隐身模式，现在他们提供专业的面部替换服务。该服务可以无缝地更改演讲者或演员的表情和对话。Synthesia 并不是要制作错过或漫画错觉效果，而是在寻求解决语言配音和ADR（根据同期声参考声带进行对白重置的技术）中现有问题的方案。“Native配音”是一种新的翻译视频内容的方法，它利用人工智能或机器学习将演员的嘴唇运动同步到新的对话轨迹上。这样不会出现配音和嘴唇同步不匹配的问题。观众看到的效果是理想的完整无缝输出效果。

Synthesia唇形同步技术全面解析附详细视频演示

Synthesia公司的目标是消除视频中的语言障碍，将高端产品视频和YouTube作者的视频翻译成更多语言，拥有更多的受众。他们希望这种新方法能够促进文化交流和包容性视频的制作。Synthesia公司现在将他们的突破性技术作为一项服务，为选定的合作伙伴，对专业嘴唇同步提供高端ADR专业服务。该团队正在构建一个云平台，以便快速将这种技术传达给广泛的视频内容创建者，并且该公司的长期目标是通过一个自动化同时控制质量的云平台，来提供完整的场景合成效果。

Synthesia——Native配音：

“我们去年一直在做的事情就是解决逼真面部合成的复杂问题”， Synthesia公司的首席技术官Dr.Jonathan Starck表示。

该公司的联合创始人MatthiasNiessner教授是“Face2Face: Real-timeFace Capture and Reenactment of RGB Videos”（一款具有里程碑意义的面部替换工具，许多人认为这是数字面部“玩偶”技术的关键内容）的重要研究人员之一。该技术在2016年SIGGRAPH大会上首次亮相后，立即引起行业中浓烈的兴趣。

Synthesia唇形同步技术全面解析附详细视频演示

现在Synthesia系统使用ENACT Native配音工具，该工具不会让翻译中的配音或字幕出现创意性失误，为观众提供无缝衔接的体验。甚至在不久之前，类似这样的合成解决方案还会生成过于模糊图像，使得场景不够真实。过去的一年中，Synthesia始终在修复和开发新技术，来制作专业的行业等级效果，但是仍然是完全自动化的。

Starck认为专业的“合成媒体”未来有巨大的发展前景，他认为人工智能（机器学习）系统有巨大的潜能，使内容创作成为更直观的创作过程。

过程

第一阶段是为创建添加新语音的数字面部或人偶绑定提供数据。团队需要一个小的数据集，来创建Synthesia头部。你需要准备两段剪辑素材：

1. 演讲人或演员的3-5分钟的演讲

2. 特定对话中进行头部旋转

团队在拍摄材料的时候非常随意，拍摄时不需要特定的舞台和灯光，制作过程尽量简单。第二阶段的是使用Synthesia技术翻译剪辑片断中的对话，或者大家可以自己翻译。Synthesia需要用户提供主角演讲片断，以及翻译的目标语言，然后其余的工作交给这个工具就可以了。但是在某些情况中，制作人希望可以录制自己的替换音频，来匹配原始声音环境，这种情况中需要同时上传音频和视频内容。该技术的一个关键部分是精确可以生成源剪辑的无标记面部跟踪。头部和面部被追踪和“学习”后，这个过程称为机器学习过程的一部分。这个过程并不是创建3D模型，添加纹理制作动画，并使用传统方式进行渲染。相反，它使用尖端的人工智能技术，在培训数据的基础上创建每一帧真实的面部效果。

Synthesia头部跟踪技术展示：

上方的视频展示了无标记面部追踪的过程，这是该技术的关键过程。

内部技术过程

该过程是完全自动化的，不需要艺术家干预。整个过程需要几天的时间才能完成一个剪辑的制作，并且是分阶段完成的。第一个内部的步骤就是创建Synthesia头部。整个Synthesia过程以机器学习（ML）为基础。这样的方法中，卷积神经网络(Convolutionalneural networks)的培训过程需要时间，仅仅培训时间就要花费12个小时甚至更多时间。培训完成后，最终的面部重新生成动画几乎就是实时生成的。这一点非常重要，这意味着处理10分钟剪辑的时间不是处理5分钟剪辑时间的两倍。面部和深入学习步骤完成后，整个流程就会更快了。

确切的内部技术方法并没有公布。但是Synthesia的过程会使用生成式对抗网络（GAN）。该系统是自动化的，但是带有专业问答系统，如果最终得出的效果不真实，团队会调整流程并重新运行。

Face2Face（面对面）

作为参考，下面展示了2016年Siggraph大会新兴技术大厅中展示的Face2Face技术。该技术与Synthesia不同，但是它显示该公司最初的开发尝试。文章最后一个视频中展示了fxguide机构的Mike Seymour在2016年Siggraph大会上测试Face2Face技术的场景（使用他的iPhone拍摄的）。

Face2Face技术：实时面部捕捉再现RGB视频

下方的视频展示了Mike Seymour在2016年Siggraph大会上测试Face2Face技术的场景。

更多相关教程请关注：3D教程专区，中文字幕教程专区