当前位置:首页 > 工业用地 >ai动作捕捉软件(动画动作捕捉软件)

ai动作捕捉软件(动画动作捕捉软件)

一部1分钟的舞蹈动画,手工制作可能需要20多天的时间。在AIxPose辅助下,制作1分钟的舞蹈动画只需要3天,整个流程缩短80%以上。

AIGC 有新魔法!不需要动画师的手K、习惯捕捉或光线捕捉。只需提供视频,这款AI动作捕捉软件即可自动输出动作。短短几分钟,虚拟人的动画就完成了。

ai动作捕捉软件(动画动作捕捉软件)

不仅是四肢的大帧动作,连手部的细节都能精准捕捉。

除了单视图视频外,它还可以支持多视图视频。与其他仅支持单目识别的动作捕捉软件相比,该软件可以提供更高的动作捕捉质量。

同时,软件还支持对已识别的人体关键点、平滑度、脚步细节等进行编辑修改,可以满足从普通玩家的兴趣体验到硬核玩家的专业需求。

这是网易互娱AI实验室多年研发、基于专业美术反馈不断迭代优化、低调的AIxPose视频动作捕捉软件。据悉,该软件已处理了数十小时以上的视频资源,并已应用于游戏剧情动画、流行舞蹈动画等资源的制作过程中。经实际项目验证,手工制作一个1分钟的舞蹈动画可能需要20多天,但在AIxPose辅助下制作只需3天,整个流程缩短80%以上。近日,网易互娱AI实验室根据该软件的开发经验,并结合动作捕捉领域的相关研究工作进行了整理。其撰写的论文《Learning Analytical Posterior Probability for Human Mesh Recovery》被计算机视觉会议CVPR 2023选中接管。

首页地址:https://netease-gameai.github.io/ProPose/

论文地址:https://netease-gameai.github.io/ProPose/static/assets/CVPR2023_ProPose.pdf

本文创新性地提出了一种基于后验概率的视频动作捕捉技术ProPose,能够在单图像、多传感器融合等不同设置下实现精确的三维人体姿态估计。技术准确性比使用先验的基线概率方法高19%,并且在公共数据集3DPW、Human3.6M 和AGORA 上优于过去的方法。此外,对于多传感器融合任务,该技术还可以在不因引入新传感器而修改神经网络主干的情况下实现比基线模型更高的精度。技术背景本研究的任务是从RGB 图像中预测人体网格恢复(hmr)。现有的方法可以概括为两类:直接法和间接法。直接方法使用神经网络端到端地回归人体关节的旋转表示(例如轴角度、旋转矩阵、6D向量等),而间接方法首先预测一些中间表示(例如三轴旋转)维度关键点、分割等),然后通过这些中间表示得到关节旋转。然而,这两种方法都存在一些问题。对于直接方法,由于这类方法需要网络直接学习旋转等抽象表示,与学习关键点和分割相比,学习旋转相对困难,因此网络输出的结果有时很难与图像对齐并且无法完成。一些较大的动作,比如下图(a)中第一排的右脚无法完全向后伸展。相比之下,间接方法通常会产生更高的精度,但此类方法的性能很大程度上依赖于中间表示的精度。当中间表示由于噪声而产生误差时,最终的旋转很容易显得相当明显。错误,如下面(b) 中第二行左侧所示。

除了前面提到的确定性方法之外,还有一些方法通过学习某些概率分布来对人体姿势的不确定性进行建模,从而将噪声考虑在内,提高系统的鲁棒性。目前主要的概率建模方法包括多元高斯分布、归一化流、神经网络隐式建模等,但这些概率分布在非SO(3)上并不能真实反映关节旋转的不确定性。例如,当不确定性较大时,SO(3)上高斯分布的局部线性假设不成立。最近的一项工作直接使用网络来学习矩阵费舍尔分布的参数。虽然这是SO(3)上的分布,但该方法的学习方法与直接方法类似,收敛性能无法与现有的间接方法相比。为了兼顾高精度和鲁棒性,提高概率方法的性能,ProPose推导了关节旋转的解析后验概率,既可以受益于不同观测变量带来的高精度,又可以尽可能多地衡量不确定性尽可能。减少噪声对算法的影响。如下图所示,对于输入图像,ProPose可以通过输出概率分布在一定程度上衡量各个方向关节旋转的不确定性,例如右手沿手臂轴的旋转、左臂上下摆动,左小腿。距离的远近程度等。

技术实现人体建模本研究对人体姿势进行概率建模,目的是找到在一些观察到的可变条件(例如骨骼方向d等)下关节旋转R的后验概率p(R|d,)。具体来说,由于人体的关节旋转位于SO(3)上,子关节相对于父关节的单位骨骼方向位于S^2上,因此可以根据这两个流形上的概率分布进行分析。首先,SO(3)上的矩阵Fisher分布MF()可以作为关节旋转R的先验分布,如下式所示,FR^(33)是这个分布的参数,c(F)是归一化常数,tr表示矩阵的迹。

如下式所示,F可以通过SVD分解直接求解出均值M和表征分布聚合程度的聚合项K。其中,=diag(1,1,|UV|)是对角正交矩阵,用于保证M的行列式为1,从而能够落入特殊正交群。

其次,考虑到骨骼的方位可以通过关节旋转来计算,因此关节旋转R可以视为隐变量,骨骼方位d作为观测变量。在给定R 的条件下,S^2 上的单位方向d 服从von Mises -Fisher 分布:

其中,R和dS^2分别是分布的聚合项和均值,l是参考姿势(如T-pose)下的单位骨骼方位,理论上满足Rl=d ,即参考点将通过关节旋转来移动。骨骼方向转至当前骨骼方向。利用贝叶斯理论,给定先验分布p(R)和似然函数p(d|R),可以计算以骨方向为条件的关节旋转后验概率p(R|d)的解析形式:

可以得出,后验概率p(R|d)也服从矩阵Fisher分布,其参数由F更新为F^'=F+dl^T。上述后验概率仅将人体骨骼的方位视为观测量。类似地,也可以推广到其他方向观测量d_i或旋转观测量D_j(可以由其他传感器产生,如IMU等),分析得到以下一般形式的后验概率:

其中_i 和K_j 是聚合项。 g()是IK形式的映射,可以将方向观测转换为旋转估计。可以采用最简单的形式,如g(d_i)=dl^T。 Z_1和Z_3分别表示方向观测值和旋转观测值的集合。特征本节进一步说明后验概率分布比先验概率分布具有更高的聚集程度。上一节介绍了人体关节旋转后验概率的解析形式,其特征是一个新的参数F'。后验参数F^' 可以从另一个角度来理解,即F^' 是与F 相同的均值项M 和一个新的聚合项K^' 的乘积:

其中,M^T dl^T=ll^T 是1阶实数对称矩阵,K也是实数对称矩阵,即后验聚合项K'也是实数对称矩阵。根据矩阵分析中实对称矩阵的交错定理,可以得到K'的特征值_i'与K的特征值_i存在如下不等关系:

考虑到聚合项的特征值等价于分布参数的奇异值,而分布参数的奇异值可以反映分布的置信度,因此可以得出,当似然项非零时,后验估计比先验估计更集中,可以快速收敛到似然函数偏好的模式,从而更容易学习。除了先验概率方法之外,另一个主要的基准方法是使用逆向运动学(IK)直接通过骨骼取向来计算旋转。下图可以直观地展示后验概率法与确定性IK法的对比。

上图以人体肘关节为例。真实的三维坐标轴代表真实值,透明的三维坐标轴代表估计值。第一行代表确定性IK 方法。此类方法背后的建模方法是表示骨骼方向的向量。当骨骼定向被精确估计后,剩余的一个自由度(扭转)可以减少为一个圆(图中球上的虚线圆);当骨方位估计不准确时,会导致所有可能的估计值偏离真实值。第二行代表本研究的后验概率模型,它是多种不同类型模型的融合。球体上的红色区域代表某种旋转的概率。即使骨骼方向的估计存在错误,该方法也可以将其恢复到真实状态。值,因为骨取向的噪声可以通过先验或其他观察来尽可能地减轻。网络框架图和损失函数基于前述理论和推导,可以直接构建下图所示的框架图。使用多分支网络来估计单幅图像的先验分布参数F、三维关键点J(从中计算骨骼方向d)和形状参数。通过贝叶斯法则计算后验概率,最终从后验分布中得到姿势估计,输出人体网格。

损失函数的选择比较直接,是以下四个约束的加权和,其中L_J表示关键点约束,L_表示形状参数约束,L_表示矩阵形式的姿势参数约束,L_s表示姿势对分布进行采样后的约束。关于分布的约束,这里没有直接使用MAP,因为考虑了归一化参数的数值稳定性。关于采样策略,与之前的工作类似,将矩阵Fisher分布转换为四元数形式的等效Bingham分布,然后通过拒绝采样得到,其中拒绝采样的推荐分布采用角中心高斯分布。

实验结果在实验部分,本研究在公共数据集Human3.6M、3DPW、AGORA和TotalCapture上与以往的方法进行了定量比较。可以看出,本研究的方法超越了之前的很多方法。右下表格中最后两行灰色是同一时期的作品,为了列表的完整性而在此列出。

下图显示了与现有SOTA 方法HybrIK、PARE 和CLIFF 的定性比较。可以看到,ProPose在一些遮挡情况下可以取得更好的效果。

下表显示了一系列消融实验,证明了ProPose 的准确性和稳健性。基准方法包括不使用三维关键点、不使用先验、测试时不使用先验、选择主干网络中不同位置的特征等。下左表充分验证了所提出的后验概率分布具有更高的准确性。下右表显示了后验法和确定性IK 法对噪声的鲁棒性比较。可以看出,后验方法可以更大程度地抵抗噪声的干扰。

除了上述HMR任务之外,本研究还评估了多传感器融合任务。下面给出了单视图和IMU 融合的效果。

审稿人:李茜

最新资讯

推荐资讯