阿里发布医疗AI模型“灵枢”

引言

医学与人工智能的深度融合正在改变我们看待健康与疾病的方式。这句话在今天比以往任何时候都更具现实意义。随着人工智能技术的飞速发展，医疗领域迎来了前所未有的变革契机。近日，阿里巴巴达摩院推出了Lingshu，一个专注于医学领域的多模态大型语言模型。Lingshu不仅在多模态问答、医学报告生成等方面表现出色，还在医学推理和诊断支持上展现了卓越的能力。本文将深入探讨Lingshu的技术原理、主要功能及其广泛的应用场景。

什么是Lingshu？

Lingshu是阿里巴巴达摩院推出的大型语言模型，专为医学领域设计。它支持超过12种医学成像模态，包括X光、CT扫描、MRI等，能够在多模态问答、文本问答及医学报告生成等任务中提供精准的结果。Lingshu基于多阶段训练，逐步嵌入医学专业知识，显著提升了在医学领域的推理和问题解决能力。该模型推出了7B和32B两个参数版本，其中32B版本在多个医学多模态问答任务中超越了GPT-4.1等专有模型。

Lingshu的主要功能

多模态医学问答

Lingshu支持处理多种医学成像模态的视觉问答任务。它可以根据输入的医学图像和相关问题，生成准确的答案，帮助医生快速做出诊断决策。

医学报告生成

Lingshu能够生成高质量的医学报告，如放射学报告。它可以根据输入的医学图像，生成详细的“发现”和“印象”部分，为临床医生提供有价值的参考。

医学知识问答

Lingshu能够回答纯文本的医学问题，涵盖广泛的医学知识。这为医学学生、临床医生和研究人员提供了准确的信息，帮助他们做出更明智的决策。

医学推理与诊断支持

Lingshu具备强大的医学推理能力，可以根据输入的医学图像和文本信息，进行复杂的推理和诊断支持，为医生提供有力的辅助。

医学图像理解与标注

Lingshu能够理解和标注医学图像中的关键特征，如病变位置、类型和严重程度。它可以生成详细的图像描述，帮助医生更好地理解图像内容。

Lingshu的技术原理

数据整理

数据收集

Lingshu从多种来源收集医学成像数据、医学文本数据和通用领域数据，确保数据的广泛性和多样性。

数据清洗

基于图像过滤、去重和文本清理，Lingshu确保了数据的质量和相关性，为后续的模型训练打下坚实基础。

数据合成

Lingshu生成高质量的医学标题、视觉问答（VQA）样本和推理轨迹，丰富了训练数据，提升了模型的泛化能力。

模型架构

Lingshu基于Qwen2.5-VL模型架构，包含三个关键组件：大型语言模型（LLM）处理文本输入和生成文本输出，视觉编码器提取医学图像的视觉特征，投影器将视觉特征映射到语言模型的表示空间。

多阶段训练

医学浅层对齐

Lingshu用少量医学图像文本对进行微调，让模型准确编码医学图像生成相应的描述，初步实现了医学图像的理解。

医学深层对齐

引入更大规模、更高质量和语义更丰富的医学图像文本对数据集，进一步整合医学知识，提升了模型的医学推理能力。

医学指令调整

基于大规模的医学指令数据优化模型，提高执行特定任务指令的能力，使模型在实际应用中更加灵活和高效。

医学导向的强化学习

Lingshu用强化学习与可验证奖励（RLVR）范式，增强模型的医学推理能力，使其在复杂医学任务中表现出色。

评估框架

Lingshu项目推出MedEvalKit评估框架，整合多个多模态和文本医学基准测试，支持多种问题格式，包括多项选择题、封闭式问题、开放式问题和医学报告生成。框架提供标准化的数据预处理格式和后处理协议，及一致的模型部署和推理接口，支持快速集成和一键评估。

Lingshu的应用场景

医学图像诊断

Lingshu可以处理多种医学成像模态的视觉问答任务，分析图像中的异常并

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

阿里发布医疗AI模型“灵枢”

作者智能小编

引言

什么是Lingshu？