日前,“实时高逼真孪生数字人关键技术研发与应用示范”项目启动会暨实施方案咨询会在北京理工大学国际交流中心召开。该项目由北京理工大学发起,上海科技大学、北京大学、浙江大学、中科院计算所、中央戏剧学院、中国传媒大学、杭州看潮信息等10家高校以及企业共同参与。项目围绕高逼真数字人技术,突破光场重建、智能生成与驱动等业内关键能力,通过构建支持产业发展的核心硬件、工具平台以及底层数据集等,最终实现内容生产到数字消费的业态链路畅通,达成文化与技术的有机融合。
会议现场
其中火山语音凭借业内优势的AI语音技术以及全栈语音产品解决方案能力,参与到该项目课题三“实时高保真孪生数字人通用开发平台”的建设中,并与江南游戏工作室合作,通过整合交互理解、智能对话管理、智能驱动三大模块,构建支持定制化并适用于多样场景的数字人智能“对话”系统,实现多模态交互对话。
例如在交互理解方向,该模块集成了多语种自然语言识别以及多模态交互意图识别功能;在智能对话管理模块,则集成了情境定制管理、对话工厂、意图管理、QA问答管理、闲聊模块等对话管理链路;在智能驱动模块,包含了情绪表情生成能力、唇型视素生成能力、肢体动作自动生成能力、支持“多语言+多音色”的语音合成能力,以及音乐驱动舞蹈动作生成能力等;智能对话系统最终输出语音、口型、表情、动作至云端渲染引擎,实现超写实数字人的拟人化交互表达。
对此火山语音团队负责人马泽君表示,未来通过参与这个科技项目研发产出的一系列创新技术将由火山语音加速达成实践落地,并由火山引擎对外提供服务,不断探索 AI与业务场景的高效融合,产出行业标杆案例,提升音频理解、音频合成、数字人驱动、对话交互等AI语音技术能力的同时,以实现更大的产业价值。