数字人动作生成

语音驱动的面部表情与口型同步生成

该组文献聚焦于通过音频信号驱动数字人的面部动作,涵盖了口型同步、情感表达以及从单张图像生成说话人视频的技术方案。

全身肢体动作、手势与复杂行为合成

这组论文探讨了数字人的全身动作生成,包括基于语义的动作拼接、舞蹈动作控制、抓取行为模拟以及对话过程中的手势生成,强调动作的自然度与连贯性。

基于大语言模型与多模态驱动的交互系统

此类文献研究如何将大语言模型(如ChatGPT/GPT-4)与数字人动作生成结合,构建具有情感响应、实时对话和情境理解能力的智能交互数字人。

可驱动数字人建模与动态外观重构

该组文献关注数字人的资产构建,包括从单图或单目视频中重构可驱动的3D人体模型、处理服装形变以及卡通风格化人脸的生成技术。

动作生成框架、评估体系与行业应用研究

这组文献涉及数字人动作生成的底层算法框架优化(如扩散模型、VAE)、性能评估标准以及在教育、医疗等特定领域的应用实践。

数字人动作生成

数字人动作生成的研究正从单一的口型同步向多模态深度集成演进。目前的研究方向主要集中在:1) 利用生成式AI(如Diffusion和Transformer)提升肢体与面部动作的真实感;2) 结合大语言模型构建具备感知和交互能力的具身智能数字人;3) 探索低成本、高质量的单目视频/图像三维重建与动作驱动技术。同时,建立标准化的客观评估指标与感官评价体系已成为该领域进一步发展的关键需求。

30 篇文献,5 个研究方向
语音驱动的面部表情与口型同步生成
该组文献聚焦于通过音频信号驱动数字人的面部动作,涵盖了口型同步、情感表达以及从单张图像生成说话人视频的技术方案。相关文献: Kazi Injamamul Haque et. al, 2023 等 6 篇文献
全身肢体动作、手势与复杂行为合成
这组论文探讨了数字人的全身动作生成,包括基于语义的动作拼接、舞蹈动作控制、抓取行为模拟以及对话过程中的手势生成,强调动作的自然度与连贯性。相关文献: Ge Cheng et. al, 2025 等 7 篇文献
基于大语言模型与多模态驱动的交互系统
此类文献研究如何将大语言模型(如ChatGPT/GPT-4)与数字人动作生成结合,构建具有情感响应、实时对话和情境理解能力的智能交互数字人。 相关文献: Chong-yu Lan et. al, 2023 等 5 篇文献
可驱动数字人建模与动态外观重构
该组文献关注数字人的资产构建,包括从单图或单目视频中重构可驱动的3D人体模型、处理服装形变以及卡通风格化人脸的生成技术。相关文献: Junfa Liu et. al, 2005 等 6 篇文献
动作生成框架、评估体系与行业应用研究
这组文献涉及数字人动作生成的底层算法框架优化(如扩散模型、VAE)、性能评估标准以及在教育、医疗等特定领域的应用实践。相关文献: Stefan Hartmann et. al, 2015 等 6 篇文献