讯飞多模态交互大模型上线,数字人、语音、视觉,一键全调用

该大模型不仅实现从语音交互拓展到音视频流实时多模交互,新增“多模态、超拟人和个性化”能力,还实现语音、视觉、数字人交互三合一,支持一键调用。

11月14日,讯飞星火多模态交互大模型正式上线,不仅实现从语音交互拓展到音视频流实时多模交互,新增“多模态、超拟人和个性化”能力,还实现语音、视觉、数字人交互三合一,支持一键调用。

微信截图_20241115112338

01 一张照片打造“数字分身”

超拟人数字人栩栩如生,颜值与才华兼具。

首发超拟人数字人技术,数字人躯干和四肢动作精准匹配语音内容,表情和动作快速生成,让 AI自此栩栩如生。

统一文本、语音与表情,实现跨模态的语义一致性,让大模型情感表达真实连贯,数字形象真实度和自然度达到4.0分。

02 让机器表达有了“人情味”

超拟人极速交互告别机器味,声音生动且有温度。

采用统一神经网络直接实现语音到语音的端到端建模响应更快速、流畅,不惧频繁打断。

既可敏锐感知情绪变化,也可根据指令自由变换声音节奏、大小及人设。

03 解锁“耳聪目明”的AI助手

多模态视觉交互既能听懂世界,也可认清万物。

实时音视频流的动态多模交互,给大模型装上一双“慧眼更全面感知具体背景场景、物体状态等信息,任务的理解更加精准,通过语音、手势、行为、情绪等综合判断,做出合适回复。

多模态交互大模型适用于个人助理、智能陪练、情感陪伴、教育培训等应用场景,带来了全新人机交互体验助力开发者打造新的创新应用。

来源:讯飞开放平台

相关推荐

发表评论