智源联合南开开源低幼儿童中文语音数据集

北京讯 – 智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）近日共同推出了ChildMandarin，一款专门针对3-5岁儿童的普通话语音数据集。该数据集的开源，无疑为儿童语音识别、语言发展研究以及智能语音交互系统的发展注入了新的活力。

数据集概况：自然真实交互，填补行业空白

ChildMandarin数据集包含41.25小时的语音数据，采集自397名儿童，覆盖中国22个省级行政区，在性别分布上力求均衡。值得一提的是，该数据集采用家长引导式对话的采集方式，模拟自然交流场景，确保语音数据的真实性和自然性。数据通过智能手机录制，保证了高质量的音频。

“目前针对低幼儿童的语音数据集相对匮乏，ChildMandarin的发布填补了这一空白。”南开大学HLT Lab负责人表示，“我们希望通过开源这一数据集，能够促进学术界和工业界在儿童语音领域的创新。”

核心功能与技术原理：提升儿童语音识别的准确性

ChildMandarin数据集主要应用于以下几个方面：

在技术原理上，ChildMandarin数据集的构建主要包含以下几个关键步骤：

数据采集： 采用家长引导式对话，模拟真实交流场景，覆盖中国22个省级行政区，确保语音数据的多样性。使用智能手机进行录音，保证音频质量，采样率为16kHz，精度为16位。
数据标注： 由专业转录人员进行手动标注，包括儿童的发音、停顿、重复等自然语言现象。同时标注说话人的年龄、性别、出生地、录音设备、口音等级等信息。
模型训练和评估： 使用多种ASR模型（如Transformer、Conformer、Paraformer）进行训练和评估，基于CTC、AED、RNN-T等技术。对预训练模型（如HuBERT、Whisper）进行微调，利用在大规模数据上学习到的特征，提升儿童语音识别的性能。使用说话人嵌入提取模型（如x-vector、ECAPA-TDNN、ResNet-TDNN）进行说话人验证任务，评估模型在儿童语音上的表现。
数据集设计： 数据集分为训练集、验证集和测试集，确保模型训练和评估的科学性和有效性。基于多样化的数据采集和标注，确保数据集能够覆盖不同年龄段、性别、地域和口音的儿童语音。

广泛的应用场景：赋能儿童语言学习与智能交互

ChildMandarin数据集的开源，将极大地推动以下应用场景的发展：