近日,美国专利商标局授予苹果公司一项专利,该专利的标题名为"带有姿势和表情控制的面部图像生成"。这项专利说明了苹果认为这可能是未来的照片操作功能和/或静态照片和视频应用程序的发展方向。
苹果在其新专利中指出,他们的发明涵盖了与基于参考图像创建人脸合成图像有关的系统和方法。这些合成图像可以纳入面部表情和姿势的变化。
在推断时,可以生成一个看起来像参考图像的人(即主体)的图像,并根据系统或方法展现出主体以前没有出现过的表情和/或姿势。因此,生成的图像是一个模拟的图像,看起来描述的是参考图像的主体,但它实际上不是一个真实的图像。
在该专利中,真实图像指的是一个人的摄影图像,它代表了该人在图像被拍摄时的样子。
正如专利中所解释的,所述的系统和方法首先根据面部表情和姿势的变化来修改主体脸部的形状描述。这就产生了一个目标形状描述(例如,脸部形状统计模型的参数),可用于呈现目标脸部形状的图像。
目标脸型包含了相对于参考图像的表情和/或姿势的变化。目标脸型被渲染,以产生一个渲染的目标脸型图像。
目标脸部充分描述了主要的面部特征(例如,眼睛和嘴),以传达这些特征的位置、形状和表情。
渲染的目标脸形图像和参考图像被提供给图像发生器作为输入。目标脸型的渲染版本作为一个地图,表明面部特征的位置,而参考图像作为一个纹理源,将参考图像中的主体外观应用到目标脸型的渲染版本中。
图像生成器是一个经过训练的机器学习模型(例如,神经网络),它被配置为生成一个看起来像人脸的现实图像的图像,包含一个脸部形状(例如,包括面部表情和姿势),与来自目标脸部形状的渲染版本的脸部形状一致,并且与参考图像的主体身份一致(例如,生成图像中描绘的人看起来与参考图像的主体是同一个人)。
图像生成器经过训练,以限制基于输入图像的输出图像的生成,从而使输出图像看起来描述了输入图像的主体。
图像生成器可以是生成式对抗网络的一部分,该网络通过同时训练生成器生成图像和判别器来确定图像是否真实,是否与目标脸部形状的渲染版本中的脸部形状相对应,并与参考图像中主体的身份相对应。
图源:patentlyapple
苹果公司的专利图1是一个框图,显示了一个图像生成系统,它包括一个形状估计器和一个图像生成器;图2是一个框图,显示了形状估计器的训练系统。
苹果公司的专利图4是一个框图,显示了图像发生器的训练系统;图6是一个流程图,显示了具有姿势和表情控制的人脸图像生成过程。
图源:patentlyapple
上述图4的图像生成器训练系统#440被配置为训练图像生成器,以根据图像生成器通过大量的训练程序迭代学习的约束条件输出生成的图像(#441)。图像生成器训练系统被配置为生成对抗网络(GAN--如Wiki定义的Deepfakes中所指)的形式,其中生成器生成合成图像,鉴别器试图确定图像是真实的还是合成的,而确定的结果被用来进一步训练生成器和鉴别器。
想了解更多细节,请查阅苹果公司的授权专利US 11475608 B2。
今天,苹果使用iPhone的Face ID相机来创建Memoji,这很容易导致出现Deepfake图像操纵。但这项专利并不是关于Memoji的,因为苹果在2015年收购了一家名为Faceshift的公司,该技术就来自于此公司。
苹果新获得的专利是对Deepfake 这项技术的一种新诠释,它是在Memoji几年后开发的,并深入研究了对照片和视频的操作。很明显,苹果可以更进一步利用这项技术。看看苹果将如何使Deepfake操纵成为一种友好的、不具威胁性的应用,这将是很有趣的。
来源:patentlyapple