上海的陆家嘴

引言

如果有一款人工智能能够在SAT和GRE等高难度考试中接近满分,能够生成复杂的科学动画,甚至在模拟经营游戏中击败人类玩家,你会不会觉得这是科幻小说中的情节?然而,这正是马斯克旗下xAI推出的新一代大模型——Grok 4所展现的卓越能力。这款大模型不仅在推理能力上有了飞跃式的提升,还支持多模态功能,能理解主观概念、生成代码和可视化内容,并在语音交互上进行了重大改进。本文将深入探讨Grok 4的各项功能、测试表现、产品定价及其广泛的应用场景。

Grok 4的主要功能

  1. 卓越的推理能力
    Grok 4在多项高难度考试中展现出超越人类的推理水平。例如,在Humanity’s Last Exam中,Grok 4 Heavy在使用工具的情况下得分达到44.4%,若进一步优化可提升至50.7%。

  2. 多模态理解
    该模型能够理解主观概念,并搜索和分析图片。这意味着Grok 4不仅能处理文本数据,还能处理图像数据,提供更为全面的信息整合能力。

  3. 信息整合与摘要
    Grok 4可以从社交媒体等渠道整合信息,提取关键事件并按时间排序。这一功能在信息爆炸的时代显得尤为重要,能够帮助用户快速获取关键信息。

  4. 代码与可视化生成
    根据科学提示,Grok 4可以生成复杂动画,例如模拟黑洞碰撞。这一功能对于科学研究和教育辅导具有重要意义。

  5. 语音交互改进
    Grok 4支持五种新声音,对话更流畅,情感表达更自然。这一改进使得Grok 4在智能助手应用中表现出色。

  6. 复杂任务处理
    在模拟经营等复杂任务中,Grok 4表现出强大的战略规划和执行能力。例如,在Vending-Bench模拟经营中,Grok 4净赚$4694,远超其他模型和人类玩家。

  7. 并行智能体协作
    Grok 4 Heavy版本支持多个智能体并行解决复杂问题。这一功能使得Grok 4在处理多任务和复杂问题时更具优势。

Grok 4的测试表现

Grok 4在多项基准测试中超越其他前沿模型:

  • Humanity’s Last Exam:Grok 4 Heavy得分达到44.4%,若进一步优化可提升至50.7%。
  • AIME25(数学竞赛):Grok 4 Heavy拿到100%满分。
  • GPQA(研究生水平问答):Grok 4 Heavy得分88.9%,领先于其他模型。
  • HMMT25(高中数学竞赛):Grok 4 Heavy得分96.7%。
  • USAMO25(美国数学奥赛):Grok 4 Heavy得分61.9%。
  • ARC-AGI(抽象推理):Grok 4得分15.9%。
  • Vending-Bench(模拟经营):Grok 4净赚$4694。

在第三方测评中,Grok 4同样表现出色:

  • 人工智能指数:Grok 4拿到73分,超过OpenAI o3、谷歌Gemini 2.5 Pro等模型。
  • 编码指数和数学指数:Grok 4均排名第一。

Grok 4的产品定价

Grok 4提供两种付费订阅计划:

  • SuperGrok:年费300美元,月费30美元。
  • SuperGrok Heavy:年费3000美元,月费300美元。

API调用定价:

  • 输入:3美元/百万token。
  • 输出:15美元/百万token。

Grok 4的应用场景

  1. 教育辅导
    Grok 4可以为学生提供个性化的学习方案,解答复杂的学术问题,帮助学生更好地理解和掌握知识。

  2. 科学研究
    该模型能够分析大量实验数据,预测科学趋势,助力科学家发现新的理论和技术。

  3. 商业与金融
    Grok 4


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注