阿里云开源新一代通义千问大模型Qwen2,多项能力超越Llama-3-70B
北京时间2023年10月26日,阿里云宣布开源新一代通义千问大模型Qwen2,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。
Qwen2系列模型在多个评测基准上表现优异,特别是在Qwen2-72B模型上,实现了大幅度的效果提升。在自然语言理解、知识、代码、数学和多语言等多项能力上,Qwen2-72B显著超越了当前领先的模型,如Llama-3-70B和Qwen1.5的110B模型。
Qwen2的主要亮点包括:
- 代码 & 数学能力提升: Qwen2在代码和数学方面的能力显著提升,成功融合了CodeQwen1.5的经验,并在多种编程语言上实现效果提升。数学能力通过大规模高质量数据支持,实现了解题能力的飞跃。
- 长文本处理: Qwen2系列的Instruct模型在32k上下文长度上训练,并通过技术如YARN扩展至更长上下文,Qwen2-72B-Instruct能完美处理128k上下文长度的信息抽取任务。
- 安全性: 在多语言不安全查询类别中,Qwen2-72B-Instruct在安全性方面与GPT-4相当,且显著优于Mistral-8x22B模型,减少了生成有害响应的比例。
- 多语言能力: Qwen2在多语言评测中表现优异,增强了27种语言的处理能力,并优化了语言转换问题,降低了模型发生语言转换的概率。
Qwen2的开源将为以下领域带来积极影响:
- 推动大模型技术发展: Qwen2的开源将促进大模型技术研究和应用的快速发展,为学术界和产业界提供更多可供研究和应用的模型。
- 促进AI应用落地: Qwen2的强大能力将推动AI在各个领域的应用落地,例如智能客服、机器翻译、代码生成、科学研究等。
- 降低AI应用门槛: Qwen2的开源将降低AI应用的门槛,使更多开发者能够使用和开发基于大模型的应用。
Qwen2的开源标志着阿里云在开源大模型领域迈出了重要一步,也展现了阿里云在人工智能领域的强大实力。 未来,阿里云将继续推动大模型技术的发展,为用户提供更强大、更安全、更易用的AI服务。
Qwen2相关链接:
- 官方博客介绍:https://qwenlm.github.io/zh/blog/qwen2/
- GitHub地址:https://github.com/QwenLM/Qwen2
- Hugging Face地址:https://huggingface.co/Qwen
- ModelScope地址:https://modelscope.cn/organization/qwen
*Hugging Face在线Demo:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
Qwen2的开源将为大模型技术发展和AI应用落地带来新的机遇,让我们拭目以待。
【source】https://ai-bot.cn/qwen2/
Views: 1
