什么是FILM?
帧插值的挑战之一是处理场景中的复杂运动和遮挡。传统方法经常会产生模糊、重影或闪烁等伪影。为了克服这些限制,谷歌研究开发了一种基于深度学习和光流的新颖方法。该方法包括两个步骤:首先,光流网络估计两个输入帧之间的运动矢量;其次,像素合成网络根据运动矢量通过扭曲和混合输入帧来生成中间帧。光流网络采用自我监督损失进行训练,不需要地面真实运动标签。像素合成网络经过感知损失训练,可产生逼真且清晰的结果。该方法比以前的方法可以更好地处理大运动和复杂遮挡。它还可以针对水溅、火灾、烟雾和头发等具有挑战性的场景产生高质量的结果。该方法快速高效,在单个 GPU 上以每秒 30 帧的速度运行。谷歌研究中心已在 Replicate.com
优势
它可以产生高质量的帧插值结果,而无需依赖额外的预训练网络,例如光流或深度。与其他方法相比,它可以更好地处理大场景运动和复杂遮挡。它可以在具有不同分辨率和纵横比的两个或多个图像之间进行插值。它可以在任何具有网络浏览器和互联网连接的设备上运行。
不足
处理图像并生成输出可能需要一些时间,具体取决于网络速度和服务器负载。由于压缩和调整大小,它可能无法保留输入图像的原始颜色和细节。在某些情况下,它可能会引入伪影或失真,例如快速运动、低对比度或噪声图像。对于图像之间变化非常小或微妙的图像来说,它可能效果不佳。