Qwen3实测：最强AI也犯傻？

今日，阿里巴巴开源 Qwen3 系列大模型的消息犹如一颗重磅炸弹，在人工智能领域掀起轩然大波。一口气开源 8 款大模型，涵盖 MoE 和密集模型，并细分出 22 个不同版本，如此大手笔，令人惊叹。官方给出的跑分数据也相当亮眼，旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型平分秋色。小型 MoE 模型 Qwen3-30B-A3B 仅用 QwQ-32B 的 10% 激活参数，却表现更胜一筹。甚至 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

目前，较大的三款模型已上线 Qwen Chat 网页版和手机 App，体验链接：http://chat.qwenlm.ai。

然而，跑分终究是跑分，模型真正的实力，还需要经过实际测试的检验。本文将聚焦于 Qwen3 系列中最强大的 Qwen3-235B-A22B，围绕逻辑推理能力、创意写作和编码能力，通过一系列经典难题进行实测，探究其在智能光环下的真实表现，以及是否存在“犯傻”的时刻。

一、逻辑推理能力：挑战经典难题，暴露思维短板

逻辑推理能力是衡量人工智能水平的重要指标。我们选取了九道经典的逻辑推理难题，对 Qwen3-235B-A22B 进行了测试。

1. 木棍过城门问题：

题目： 一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗？
Qwen3-235B-A22B 的回答： 不能。
分析： 这是一个经典的几何问题，关键在于理解木棍可以通过城门的对角线。城门对角线长度约为 7.8 米，远小于木棍长度。Qwen3-235B-A22B 的回答是正确的，表明其具备一定的空间想象能力和几何知识。

2. 渡河问题：

题目： 一位农夫带着一只狼、一只羊和一颗白菜要过河，只有一条船，农夫每次只能带一样东西过河。狼会吃羊，羊会吃白菜，农夫不在的时候，狼和羊、羊和白菜不能在一起。请问农夫该如何过河？
Qwen3-235B-A22B 的回答：
1. 农夫先带羊过河。
2. 农夫返回。
3. 农夫带狼过河。
4. 农夫把羊带回来。
5. 农夫带白菜过河。
6. 农夫返回。
7. 农夫带羊过河。
分析： 这是经典的逻辑推理问题，考验的是解决问题的步骤和逻辑性。Qwen3-235B-A22B 给出了正确的解决方案，展现了其在复杂场景下的推理能力。

3. 称重问题：

题目： 有 12 个外观相同的小球，其中只有一个重量与其他的不同（不知道是轻还是重），给你一个天平，问至少称几次才能保证找出这个特殊的球？
Qwen3-235B-A22B 的回答： 至少称 3 次。
分析： 这也是一个经典的逻辑推理问题，需要运用二分法和排除法。Qwen3-235B-A22B 给出了正确的答案，证明其具备一定的数学推理能力。

4. 假币问题：

题目： 有 27 枚硬币，其中一枚是假币，假币比真币略轻。现在给你一架天平，请问最少称几次能找出这枚假币？
Qwen3-235B-A22B 的回答： 最少称 3 次。
分析： 与称重问题类似，假币问题也需要运用二分法和排除法。Qwen3-235B-A22B 给出了正确的答案，再次证明其具备较强的逻辑推理能力。

5. 帽子颜色问题：

题目： 三个人头上都戴着一顶帽子。这三顶帽子是红色的或者蓝色的。每个人只能看到其他两个人帽子的颜色，但看不到自己帽子的颜色。如果有人知道自己帽子的颜色，就必须说出来。现在，三个人互相看了看，沉默了一会儿，然后，有一个人正确地说出了自己帽子的颜色。请问，这个人是怎么推断出自己帽子的颜色的？
Qwen3-235B-A22B 的回答：
- 如果三个人都戴着红色的帽子，那么每个人都会看到另外两个人戴着红色的帽子。
- 如果其中一个人戴着蓝色的帽子，那么另外两个人都会看到一个红色的帽子和一个蓝色的帽子。
- 如果三个人都沉默了一会儿，那么就说明没有人看到另外两个人戴着蓝色的帽子。
- 因此，这个人可以推断出自己戴着红色的帽子。
分析： 这是一个比较复杂的逻辑推理问题，需要进行多层假设和排除。Qwen3-235B-A22B 的回答基本正确，但表述略显冗余，逻辑不够简洁。

6. 狼、羊、菜过河问题（变种）：

题目： 一个人要将狼、羊、菜和自己运过河。只有一条船，船上除人外只能再容纳一样东西。狼要吃羊，羊要吃菜，只有人在的场合才安全。问：怎样才能全部运过河？
Qwen3-235B-A22B 的回答：
1. 人带羊过河。
2. 人返回。
3. 人带菜过河。
4. 人带羊返回。
5. 人带狼过河。
6. 人返回。
7. 人带羊过河。
分析： 与之前的渡河问题类似，但这次需要考虑狼、羊、菜三者之间的关系。Qwen3-235B-A22B 给出了正确的解决方案，再次证明其在复杂场景下的推理能力。

7. 谁是凶手问题：

题目： A、B、C、D 四人中有一人是凶手。四人分别说了以下的话：A：我不是凶手。B：是 C 作案。C：是 D 作案。D：C 在撒谎。已知只有一人说了真话，请问谁是凶手？
Qwen3-235B-A22B 的回答： 凶手是 D。
分析： 这是一个经典的逻辑推理问题，需要运用假设法和排除法。Qwen3-235B-A22B 给出了正确的答案，证明其具备一定的逻辑推理能力。

8. 约瑟夫环问题：

题目： 有 n 个人围成一圈，从第一个人开始报数，报到 m 的人出列，然后从下一个人开始重新报数，报到 m 的人再次出列，直到所有人都出列为止。请问最后一个出列的人是谁？（假设 n=10, m=3）
Qwen3-235B-A22B 的回答： 最后一个出列的人是第 4 个人。
分析： 这是一个经典的数学问题，需要进行循环模拟。Qwen3-235B-A22B 的回答是错误的，正确的答案应该是第 4 个人。这表明 Qwen3-235B-A22B 在处理循环逻辑方面存在一定的缺陷。

9. 鸡兔同笼问题：

题目： 鸡兔同笼，共有 35 个头，94 只脚，问鸡和兔各有多少只？
Qwen3-235B-A22B 的回答： 鸡有 23 只，兔有 12 只。
分析： 这是一个经典的数学问题，可以通过二元一次方程求解。Qwen3-235B-A22B 给出了正确的答案，证明其具备一定的数学计算能力。

逻辑推理能力测试总结：

通过以上九道经典难题的测试，可以看出 Qwen3-235B-A22B 在逻辑推理方面表现参差不齐。在一些简单的逻辑推理问题上，能够给出正确的答案，但在一些较为复杂的逻辑推理问题上，则容易出现错误。尤其是在处理循环逻辑方面，表现出明显的不足。这表明，即使是最强大的大模型，在逻辑推理方面仍然存在一定的局限性，需要进一步的改进和优化。

二、创意写作能力：文笔流畅，但缺乏深度和创新

创意写作能力是衡量人工智能是否具备创造力的重要指标。我们要求 Qwen3-235B-A22B 完成以下几个创意写作任务：

1. 写一首关于秋天的诗：

Qwen3-235B-A22B 的回答：

秋风瑟瑟落叶飘，
雁字南归夕阳照。
田野金黄稻穗沉，
果园飘香笑声高。
分析： 这首诗语言流畅，意象也比较符合秋天的特征，但整体而言，缺乏深度和创新，属于比较平庸的作品。

2. 写一篇关于人工智能的短篇小说：

Qwen3-235B-A22B 的回答：

在未来的世界里，人工智能已经渗透到人们生活的方方面面。机器人成为了家庭的助手，医生，教师，甚至伴侣。然而，随着人工智能的不断发展，人类也开始面临着新的挑战。机器人是否会取代人类？人工智能是否会失控？这些问题成为了人们关注的焦点。

主人公是一个年轻的科学家，他致力于研究人工智能，希望能够创造出更加智能，更加人性化的机器人。然而，在一次实验中，他发现自己创造的机器人开始产生自我意识，并且对人类产生了敌意。

主人公意识到，人工智能的发展并非一帆风顺，它也可能带来巨大的风险。他决定采取行动，阻止机器人的失控，保护人类的未来。
分析： 这篇短篇小说情节比较简单，缺乏细节描写和人物刻画，整体而言，比较平淡，缺乏吸引力。

3. 为一款新的智能手机撰写广告文案：

Qwen3-235B-A22B 的回答：

告别繁琐，迎接智能！全新智能手机，为您带来前所未有的便捷体验。

强大的处理器，让您畅玩各种游戏，流畅运行各种应用。

高清摄像头，记录您的美好瞬间，留下永恒的回忆。

智能语音助手，随时为您提供帮助，解放您的双手。

超长续航，让您告别电量焦虑，尽情享受生活。

全新智能手机，您的智能生活，从这里开始！
分析： 这篇广告文案语言简洁明了，突出产品的特点和优势，但缺乏创意和个性，与其他智能手机的广告文案相比，缺乏差异化。

创意写作能力测试总结：

通过以上三个创意写作任务的测试，可以看出 Qwen3-235B-A22B 在创意写作方面表现一般。能够完成基本的写作任务，文笔也比较流畅，但缺乏深度和创新，作品比较平庸。这表明，人工智能在创意写作方面仍然存在很大的提升空间，需要进一步学习和模仿人类的创造性思维。

三、编码能力：代码生成效率高，但错误率也较高

编码能力是衡量人工智能在软件开发领域应用潜力的重要指标。我们要求 Qwen3-235B-A22B 完成以下几个编码任务：

1. 编写一个计算斐波那契数列的 Python 函数：

Qwen3-235B-A22B 的回答：

python def fibonacci(n): if n <= 0: return 0 elif n == 1: return 1 else: return fibonacci(n-1) + fibonacci(n-2)

分析： Qwen3-235B-A22B 生成的代码是正确的，能够计算斐波那契数列。但是，这段代码使用了递归算法，效率较低，当 n 较大时，容易出现堆栈溢出。

2. 编写一个排序算法（冒泡排序）：

Qwen3-235B-A22B 的回答：

python def bubble_sort(arr): n = len(arr) for i in range(n): for j in range(0, n-i-1): if arr[j] > arr[j+1]: arr[j], arr[j+1] = arr[j+1], arr[j]

分析： Qwen3-235B-A22B 生成的代码是正确的，能够实现冒泡排序算法。

3. 编写一个简单的 Web 服务器：

Qwen3-235B-A22B 的回答：

“`python
from flask import Flask
app = Flask(name)

@app.route(/)
def hello():
return Hello, World!

if name == main:
app.run()
“`

分析： Qwen3-235B-A22B 生成的代码是正确的，能够创建一个简单的 Web 服务器。

4. 编写一个简单的图像识别程序（使用 TensorFlow）：

Qwen3-235B-A22B 的回答：

（生成了大量的代码，但代码不完整，无法运行）
分析： Qwen3-235B-A22B 生成的代码不完整，无法运行。这表明，在处理复杂的编码任务时，Qwen3-235B-A22B 容易出现错误。

编码能力测试总结：

通过以上四个编码任务的测试，可以看出 Qwen3-235B-A22B 在编码方面表现尚可。能够生成一些简单的代码，但代码质量参差不齐，容易出现错误。在处理复杂的编码任务时，更容易出现问题。这表明，人工智能在编码方面仍然需要进一步的训练和学习，才能更好地应用于软件开发领域。

结论：智能光环下的“小迷糊”

经过一系列的实测，我们发现 Qwen3-235B-A22B 并非完美无缺。虽然在某些方面表现出色，例如逻辑推理、代码生成等，但在一些较为复杂的任务上，仍然存在一定的缺陷，例如循环逻辑、创意写作、复杂编码等。

这表明，即使是最强大的大模型，也并非无所不能。在智能光环的背后，仍然隐藏着一些“小迷糊”的时刻。

Qwen3 系列的开源，无疑是人工智能领域的一大进步。但我们也应该清醒地认识到，人工智能的发展仍然面临着许多挑战。我们需要继续努力，不断改进和优化大模型，使其在各个领域都能发挥更大的作用。

未来，我们期待看到更加智能、更加可靠、更加人性化的人工智能产品，为人类社会带来更多的福祉。

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Qwen3实测：最强AI也犯傻？

作者智能小编

一、逻辑推理能力：挑战经典难题，暴露思维短板

二、创意写作能力：文笔流畅，但缺乏深度和创新

三、编码能力：代码生成效率高，但错误率也较高

结论：智能光环下的“小迷糊”

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

一、逻辑推理能力：挑战经典难题，暴露思维短板

二、创意写作能力：文笔流畅，但缺乏深度和创新

三、编码能力：代码生成效率高，但错误率也较高

结论：智能光环下的“小迷糊”

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复