最后,融合步骤 2、5 获得的人体和人脸 mesh,再融合步骤 4、5 获得的人体和人脸纹理,得到最终的用户 3D 重建模型。整体流程如下图所示:
人体分割与背景填充 图像分割是计算机视觉领域的重要研究方向,随着近年来 GAN 等深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展。人体前背景分割是该领域的重要分支之一。 借助精细的人体分割,人体生成质量可以更高。具体地,人体分割可以去除复杂的背景,降低 GAN 生成难度。精准的人体分割还可以更好地帮助背景 inpainting 网络完成背景修补。因此,人体分割可以作为姿态迁移 GAN 网络的多任务监督之一,更好地约束用户图在目标姿态下的 shape 生成。
目标姿态下的人体生成 在 3D 模块将用户图 warp 到目标姿态后,3D 建模是「裸体」的,缺少衣服、发饰等建模信息,因此 warp 后的用户图存在鞋子缺失、没有头发等很多问题。此外,目标姿态的 3D 模型还有可能存在用户图没有的部位以及被遮挡的部位,比如用户是正面,目标姿态是侧身,此时 warp 侧身纹理被拉扯或者错误。 基于上述问题,GAN 模块的作用是进一步修饰 warp 图,一方面将 warp 图「多去少补」,另一方面增加和谐度。团队采取的方案是利用用户图的纹理信息,将用户信息与 warp 图信息在 GAN 网络中融合,生成自然的目标姿态的用户图。 GAN 网络又分为两个子网络:重建网络与姿态生成网络。生成网络的生成步骤具体如下:
得益于多角度用户图 3D 人体重建、人体分割与 GAN 生成技术三者合一的人体姿态迁移方案,才有了「照片会跳舞」新特效玩法中用户舞蹈的完美呈现。 从人脸到人体,腾讯不断探索迁移技术,创新视频特效玩法 从人脸到人体动作迁移,腾讯微视正一步步深挖迁移技术在爆款社交玩法上的延展空间,并持续探索前沿 AI 和 CV 算法在内容生产和消费领域的应用和落地。 人脸动作迁移是指将一段人脸视频中的面部动作,包括头部位置和朝向、面部表情、五官动作等,迁移至另一张静态人脸图片中,使得静态图片呈现出相同面部动作的效果。今年 3 月,微视上线了一种基于人脸图像修复和人脸动作迁移技术的特效玩法「会动的老照片」,不仅可以一键修复老照片、让照片中的人物动起来,还能通过手机实时控制生成图像的面部动作,实现人脸动作迁移。该技术由PCG应用研究中心和微视研发。
与此同时,作为隶属于腾讯平台与内容事业群(PCG)的技术团队,光影实验室(Tencent GY-Lab)为逼真特效的实现提供了坚实的技术支撑,致力于将前沿的 AI 能力、3D 渲染技术以及先进的玩法赋能产品。光影技术团队在语义分割、目标检测、分类识别、GAN 生成对抗等方面均有深厚的技术积累,在 AI 生成领域已经进行了相关算法的研发和落地工作。 目前,QQ、微视等 20 多款业务产品中均有光影研究室技术的身影,如手机 QQ 相机里的热门 AI 玩法——漫画脸,以及微视 APP 的王者变脸、迪士尼童话脸等。其中,QQ 相机漫画脸特效使用的技术是光影实验室自研算法 GYSeg,该算法在 MIT 场景解析国际竞赛(Scene Parsing Benchmark)中斩获冠军;微视 APP 中的迪士尼童话脸特效则是全球首家在手机上为用户提供实时个性化 3D 卡通化形象。 光影实验室也一直致力于人体姿态迁移技术的研究,此次「照片会跳舞」正是针对该技术的真正落地。与主流人体姿态迁移技术方案相比,用户参与更加简单,可玩性更高,实现效果也更好。此外,作为从人脸动作迁移到人体姿态迁移的巨大跨越,新增跳舞功能使得用户在微视 APP 中的体验更加丰富有趣,同时也为用户之间的交流提供了更丰富的内容。 参考链接:https://www.sohu.com/a/447487081_114877https://www.thepaper.cn/newsDetail_forward_8875767https://www.163.com/news/article/FSRQUCEL00019OH3.html