其他

虚拟数字人是怎么分类的?

  • 日期 2024-03-04
  • 作者深圳市瑞立视多媒体科技有限公司
  • 浏览量:802
  • 分享次数:1

虚拟数字人是怎么分类的?按照建模的不同,虚拟数字人形象有2D3D两种生成方式。2D虚拟数字人是指通过深度学习根据拍摄真人照片或视频制作的虚拟形象,本质是生成图像。3D虚拟数字人指的是通过三维建模制作的虚拟形象。伴随着建模技术的成熟,建模技术向AI建模发展,用户可通过上传视频或照片即可生产个人不同风格的虚拟形象,大大减短了虚拟数字人建模时长,下面就和瑞立视一起来看看虚拟数字人的相关内容。

2D3D虚拟数字人技术及应用

按照技术层级划分,虚拟数字人可以划分为真人驱动型和计算驱动型两大类。

真人驱动型虚拟数字人,在制作开始时,制作者基于IP或真人偶像绘制原画,对面部及身体部位进行3D建模,完成形象设计及建模后;制作者选择关键点,并映射在模型上,进行绑定,对于关键点的数量及绑定的位置选择都将影响最终效果;之后,由中之人(真人演员)穿戴设备。利用动作捕捉设备或特定摄像头以及图像识别等技术,捕捉形体、表情、眼神、手势等关键点的变化;中之人也会根据制作进行相应表演,进行实时驱动,对于精细程度要求更高的虚拟数字人,会对动作、眼神等采取不同的驱动方式,并进行语音合成,形成特定设置语音,进行直播或录制动作生成其他内容。

真人驱动型虚拟数字人技术流程

计算驱动型虚拟数字人,其面部表情、语音表达、动作合成等主要通过深度学习的模型进行实时或离线驱动后,通过渲染达到最终呈现效果。计算驱动型虚拟数字人在制作过程中,首先利用多方位摄像头,根据最终展现效果,对通用、特定模特进行打点扫描,完成全身或局部的扫描,并采集说话时唇动、表情、面部肌肉变化的细节、姿态等数据,完成形象设计。然后依据最终呈现效果进行建模,进行关键点绑定,基于真人照片生成虚拟内容时,一是将真人照片贴片至通用的人脸模型,进行表情迁移,形成虚拟形象,二是基于预先设置的形象分类算法,将真人照片中的眼型、发型、唇形、肤色等进行分类,并与预先设置的漫画元素进行配对,生成动漫类的虚拟形象。

之后,利用深度学习,对虚拟形象进行语音、表情、唇形等方面的训练,形成驱动模型与驱动方式,充足的驱动关键点与高精度的驱动模型,可以高水平还原人脸骨骼和面部肌肉的细微变化,从而建立逼真的表情驱动模型。目前业内科大讯飞等在智能语音技术方面领先的公司会对语音或文本中的要素进行提取,增加情感驱动模型等,而元宇宙企业魔珐科技作为业内领先的虚拟数字人全栈式厂商,其表情驱动模型可组合出超千种表情效果,包括眼神驱动等。目前,大多数厂商驱动模型为语音-唇形、语音-驱动。而对于手势、动作等身体部位的驱动,则大多依靠于现场驱动或预设置驱动,大部分企业通常会选择在通用驱动模型的基础上,进行真人驱动数据训练进行定制化驱动。

接下来,基于文本输入、语音识别、语音转化或语音合成技术,通过时间轴,结合上一步的驱动模型,将语音与虚拟数字人图片进行逐帧结合,达到音画同步。最后,通过实时低延迟渲染,生成最终内容。特别注意的是,对于具有特定交互场景的虚拟数字人,制作者/生产厂商会预设问答库、知识图谱等,将其接入虚拟数字人的交互系统。

计算驱动型虚拟数字人技术流程

计算驱动型的虚拟数字人最终呈现效果受到NLP(自然语言理解)、ASR(语音识别技术)、TTS(语音合成技术)等技术的共同影响。其中,NLP技术决定虚拟数字人最终是否可以理解使用者的需求,并且与使用者是否可以流畅交流,ASR技术决定虚拟数字人是否可以准确识别使用者需求,TTS技术则表现在虚拟数字人在交互表达时,韵律、腔调、情感、流畅度等是否与真人发声习惯相似。综上,若要拥有一个理想完美的虚拟数字人,要求生产厂商在以上三个技术层次具有较强的综合能力,因此可以看到我国进行计算驱动型虚拟数字人业务的公司,多为感知技术较强的相对成熟的AI技术公司,如瑞立视等。

以上就是瑞立视给大家整理的虚拟数字人是怎么分类的的相关内容,想要了解更多数字媒体虚拟仿真实训产教融合型企业的相关内容,可以直接咨询瑞立视。