上海的陆家嘴

引言

人工智能正在重新定义我们与世界互动的方式。 这句来自AI领域专家的话,如今正被中国科学院和中国科学院大学联合推出的Stream-Omni模型生动诠释。作为一款集语言、视觉、语音于一体的多模态模型,Stream-Omni不仅能够理解和生成基于文本描述的图像内容,还能在语音交互中实现实时反馈。它的出现,预示着人工智能交互从单一模态向多模态融合的跨越式发展,为诸多行业带来了新的可能性。

主体

Stream-Omni是什么?

Stream-Omni是由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的大型语言视觉语音模型。它能够同时支持多种模态组合的交互,以大型语言模型(LLM)为骨干,通过序列维度拼接和CTC层维度映射,实现视觉和语音文本的对齐,从而高效地将文本能力迁移到语音模态。

Stream-Omni的主要功能

  1. 多模态输入与输出:支持文本、视觉(图像)和语音等多种模态的输入,并能同时生成文本和语音响应。
  2. 无缝“边听边看”体验:在语音交互过程中,实时输出中间文本结果,如自动语音识别(ASR)转录和模型响应,为用户提供更丰富的交互体验。
  3. 高效训练:仅需少量全模态数据(如23000小时语音数据)进行训练,对数据需求量小,训练效率高。
  4. 灵活的交互模式:支持多种模态组合的交互,包括文本+视觉→文本、文本+视觉→语音、语音+视觉→文本、语音+视觉→语音等,满足不同场景下的交互需求。
  5. 视觉理解与语音交互:在视觉理解任务和语音交互任务上表现出色,能准确理解和生成与视觉内容相关的文本和语音信息。

Stream-Omni的技术原理

  1. 基于LLM的骨干架构:以大型语言模型(LLM)为核心,利用其强大的语言理解和生成能力,为多模态交互提供基础支持。
  2. 视觉文本对齐:通过序列维度拼接的方式,将视觉编码器提取的视觉特征与文本输入进行拼接,再共同输入到LLM中,实现视觉和文本模态的对齐。
  3. 语音文本对齐:引入基于CTC(Connectionist Temporal Classification)的层维度映射,在LLM的底部和顶部添加语音层,实现语音到文本的映射和文本到语音的生成,将语音模态与文本模态对齐。
  4. 多任务学习:基于多任务学习策略,同时训练视觉文本、语音文本及全模态(视觉+文本+语音)的任务,让模型更好地理解和生成多模态内容。
  5. 实时语音生成:通过特殊的语音层设计和层维度映射,Stream-Omni在生成文本的同时,实时生成对应的语音输出,实现流畅的语音交互。
  6. 数据驱动与监督学习结合:模型依赖少量多模态数据进行训练,基于精心设计的对齐机制和多任务学习,能在有限的数据上实现高效的模态对齐和交互能力。

Stream-Omni的项目地址

Stream-Omni的应用场景

  1. 智能车载系统:司机基于语音指令查询路线、获取路况,系统结合视觉信息(如导航地图、路况摄像头图像)实时显示文本提示和语音反馈,提升驾驶安全性和交互效率。
  2. 教育辅助工具:在教育场景中,学生用语音提问,系统依据教材视觉内容(如图表、图片)给出详细文本解释和语音回答,帮助


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注