讯飞多模态交互大模型上线，数字人、语音、视觉，一键全调用

YE 2024-11-15 11:22:01 0 0 0 生成海报

该大模型不仅实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，还实现语音、视觉、数字人交互三合一，支持一键调用。

11月14日，讯飞星火多模态交互大模型正式上线，不仅实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，还实现语音、视觉、数字人交互三合一，支持一键调用。

微信截图_20241115112338

01 一张照片打造“数字分身”

超拟人数字人栩栩如生，颜值与才华兼具。

首发超拟人数字人技术，数字人躯干和四肢动作精准匹配语音内容，表情和动作快速生成，让 AI自此栩栩如生。

统一文本、语音与表情，实现跨模态的语义一致性，让大模型情感表达真实连贯，数字形象真实度和自然度达到4.0分。

02 让机器表达有了“人情味”

超拟人极速交互告别机器味，声音生动且有温度。

采用统一神经网络直接实现语音到语音的端到端建模响应更快速、流畅，不惧频繁打断。

既可敏锐感知情绪变化，也可根据指令自由变换声音节奏、大小及人设。

03 解锁“耳聪目明”的AI助手

多模态视觉交互既能听懂世界，也可认清万物。

实时音视频流的动态多模交互，给大模型装上一双“慧眼更全面感知具体背景场景、物体状态等信息，任务的理解更加精准，通过语音、手势、行为、情绪等综合判断，做出合适回复。

多模态交互大模型适用于个人助理、智能陪练、情感陪伴、教育培训等应用场景，带来了全新人机交互体验助力开发者打造新的创新应用。

来源：讯飞开放平台