4月29日|阿里巴巴发布Qwen3系列模型,这是Qwen系列大型语言模型的最新成员。旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、OpenAI的(o1、o3-mini)、马斯克的Grok-3和谷歌公司Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
通义千问开源两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约300亿总参数和30 亿激活参数的小型 MoE 模型。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。
Qwen3 模型支持两种思考模式:1、思考模式。在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。2、非思考模式,在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
新闻来源 (不包括新闻图片): 格隆汇