StepFun重磅推出端到端大音频语言模型Step-Audio-AQAA

引言

想象一下，一个语音助手不仅能回答你的问题，还能根据你的情绪调整语气，用不同的方言与你交流，甚至在游戏中扮演角色，实时生成带有情感变化的语音反馈。这听起来像是科幻小说中的场景，但现在，随着StepFun推出的端到端大音频语言模型Step-Audio-AQAA的发布，这一切正逐渐成为现实。

Step-Audio-AQAA是什么？

Step-Audio-AQAA是StepFun团队推出的一种端到端大型音频语言模型，专门用于音频查询-音频回答（AQAA）任务。与传统的语音交互系统不同，Step-Audio-AQAA能够直接处理音频输入，生成自然、准确的语音回答，无需依赖自动语音识别（ASR）和文本到语音（TTS）模块。这种创新的设计简化了系统架构，消除了级联错误，使得语音交互更加流畅和自然。

主要功能

Step-Audio-AQAA具备一系列强大的功能，使其在众多语音交互应用中脱颖而出：

直接处理音频输入：无需传统ASR和TTS模块，直接生成语音回答。
无缝语音交互：支持从语音到语音的交互，提升自然性和流畅性。
情感语调调整：在句子级别调整语音的情感语调，如高兴、悲伤或严肃等。
语速控制：根据需要调整语音回答的速度。
音色和音调控制：根据用户指令调整语音的音色和音调。
多语言和方言支持：支持中文、英语、日语等多种语言，涵盖四川话、粤语等方言。
语音情感控制和角色扮演：生成带有特定情感的语音回答，并在对话中扮演特定角色。
逻辑推理和知识问答：处理复杂的逻辑推理任务和知识问答。
高质量语音输出：通过神经声码器生成高保真、自然流畅的语音波形。
语音连贯性：在长句或段落生成中保持语音的连贯性和一致性。
文本与语音交错输出：支持文本和语音的交错输出。
多模态输入理解：理解包含语音和文本的混合输入。

技术原理

Step-Audio-AQAA的技术核心在于其独特的双码本音频分词器和骨干LLM（大语言模型）：

双码本音频分词器：将输入音频信号转换为结构化的标记序列，包含语言分词器和语义分词器，分别提取语音的音素、语言属性和声学特征。
骨干LLM：使用预训练的1300亿参数多模态LLM（Step-Omni），预训练数据涵盖文本、语音和图像三种模态，通过多个Transformer块进行深度语义理解和特征提取。
神经声码器：采用U-Net架构，结合ResNet-1D层和Transformer块，将离散的音频标记合成为连续的语音波形。

项目地址

Step-Audio-AQAA已在HuggingFace模型库和arXiv上发布，供研究人员和开发者使用和参考：
– HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-Audio-AQAA
– arXiv技术论文：https://arxiv.org/pdf/2506.08967

应用场景

Step-Audio-AQAA在多个领域展现了其广泛的应用潜力：