一种可语音交互的三维数字人生成方法及系统

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
一种可语音交互的三维数字人生成方法及系统
申请号:CN202511445211
申请日期:2025-10-11
公开号:CN120931773A
公开日期:2025-11-11
类型:发明专利
摘要
本发明属于三维重建技术领域,公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同,自动生成不同语言的全新说话音频;使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力,利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后,基于语音驱动进行人体动作表情生成,实现语音生成的动作与表情的精准同步,准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型;最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。
技术关键词
三维人体模型 音色特征 生成方法 参数估计模型 面部 语音 音频特征提取 解码器 编码器 动作表情 关节特征 多层卷积网络 文本 图像 优化身体 顶点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号