上海,2024年4月15日 – 在智能语音交互领域,学术研究正展现出前所未有的活力。上海交通大学听觉认知与计算声学实验室今日正式推出全球首个纯学术界自研的支持多人实时口语对话的语音情感大模型——“交交”。这款模型不仅具备强大的对话能力,更在情感理解和表达方面实现了突破,被誉为媲美OpenAI最新发布的GPT-4o。

“交交”的问世,标志着中国高校在人工智能领域取得了又一项重要进展。它不仅仅是一个智能语音助手,更是一个集多说话人、多语言、多角色、多情感于一体的“全能对话伙伴”。

“交交”的核心亮点:

  • 多人对话,无缝切换: 无论是家庭聚会、团队会议还是朋友闲聊,“交交”都能同时与多位用户进行自然流畅的对话。它能精准识别每个人的身份和发言内容,并给出个性化的回应,还能准确地进行总结,让对话更加生动高效。
  • 语通五洲,方言无碍: “交交”现已支持汉语、英语、日语和法语四大主流语言,具备跨语言回复能力,能够打破沟通壁垒,实现无缝交流。针对中文,“交交”进行了特殊优化,拥有强大的中文方言识别与理解能力,能精准捕捉四川话、山东话等地方特色方言的语意。
  • 角色百变,情感丰富: “交交”不仅能回答问题,还能根据对话内容和场景理解用户的情绪,同时生成富有情感的回应。它能模仿多个角色的声音,还能实时学习并模仿用户本人的声音,轻松驾驭角色扮演、故事讲述和个性化互动。
  • 知识问答,无所不知: “交交”是一个知识宝库,无论是古诗词背诵、科学原理讲解,还是文学名著解读,它都能信手拈来。结合超长上下文理解能力,“交交”能满足从小学生到研究生不同层次的求知欲。

技术突破:

“交交”的技术框架主要包括以下几个关键突破:

  1. 端到端语音对话: 采用鲁棒的音频编码器,具有良好的抗噪能力和多人理解能力,无需大规模高质量数据微调,即可最大限度保持和利用文本大模型的基础泛化能力,做到实时知识问答。
  2. 多语言理解与生成: 基于创新的跨模态对齐机制,将多语言语音信号与对应文本在特征空间实现精准映射,同时通过隐式表征学习保留语言特异性信息,结合深度语言模型的上下文建模能力,实现跨语言场景下的无缝切换与高效语义理解。
  3. 多人对话建模: 通过构造多人对话数据,模拟家庭聚会、团队会议等真实场景,增强模型的对话处理能力。利用端到端模型融合上下文信息,生成个性化的响应和总结,实现自然且连贯的多方互动。
  4. 情感理解与表达: 基于上下文信息,利用思维链技术生成符合对话场景的情感全局表征,用于生动的情感语音回复生成,提升对话交流的真实感。
  5. 实时音色克隆与切换: 提供高保真声音模仿技术,通过思维链技术进行控制信号推理,从而支持多角色语音扮演风格以及与用户自身声音之间的实时无感切换。
  6. 灵活拓展: 强大的对齐策略,支持文本与音频模态的任意方式拼接融合,不仅显著提升了多模态建模的灵活性,还为集成大规模文本大模型中的多种增强机制提供了统一且可扩展的接口。

基准测试:

在语音对话大模型的赛道上,性能指标是衡量模型实力的关键。在相关测试中,“交交”展现出卓越的表现,全面对标业内主流模型,部分指标甚至已实现逼近甚至超越,充分验证了其在语音理解与交互领域的强大潜力。

  • 通用性能测试: 在VoiceBench英文基准测试中,“交交”获得了79.05的平均分,仅次于OpenAI发布的GPT-4o模型,差距缩小到仅8%。
  • 多语言测试:(原文未提供多语言测试结果,此处省略)

意义与展望:

“交交”的发布,不仅展示了上海交通大学在人工智能领域的科研实力,也为智能语音交互领域带来了新的可能性。这款模型的成功,将推动语音助手、智能客服、教育辅导等领域的创新应用,为人们的生活带来更多便利和乐趣。

未来,上海交通大学听觉认知与计算声学实验室将继续致力于“交交”的研发和优化,不断提升其性能和功能,使其在更多场景中发挥作用,为人工智能的发展贡献力量。

参考文献:

  • 机器之心. (2024, April 15). 「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研! Retrieved from https://www.jiqizhixin.com/


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注