“ 地球最强AI模型”“ 20万块H 100显卡训练” “超越人类所有博士生 ”,在发布的Grok 4时,马斯克将众多赞美词汇赋予了这个新大模型。
马斯克也骄傲地宣布,Grok4超越了OpenAI、Google和等等LLM。

确实,Grok 4屠了各种榜单。但大家还要理性看待Grok 4,毕竟Grok系列每次参数爆炸,口碑却没那么强。
具体看,Grok4 在人工智能聊天机器人指数中达到了 73 分。这超过了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。
马斯克再次大力出奇迹,拿下了AI 的No.1,模型的各项指标也很强:
➤ Grok 4 在编码指数(LiveCodeBench 和 SciCode)和数学指数(AIME24 和 MATH-500)中同样处于领先地位。
➤ GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了显著提升。
➤ 在“人类最终测试”(Humanity's Last Exam, HLE) 中,物、理、化学一系列博士级难题不在话下,Grok 4 达到了所有时间中的最高分 24%,超过了 Gemini 2.5 Pro 之前的最高分 21%。
➤ MMLU-Pro 和 AIME 2024 分别以 87% 和 94% 获得最高公共分数。

其他重要信息:
➤ 256k Token 上下文窗口。这比 Gemini 2.5 Pro 的 100 万 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 万 token),o3(20 万 token)和 R1 0528(12.8 万 token)大。
➤ 支持文本和图像输入,但图像生成基本没什么进步。
➤ 支持函数调用和配置输出。
最值得关注的是,Grok 4 不仅仅是大模型,LLM还内置工具,所以在提问问题的过程中,会有更新的思维过程(CoT)和工具使用可视化功能。
提示 1: “逐步计算 25 - 4 * 2 + 3。
提示 2:“9.11 和 9.9 哪个更大?
这两个问题都轻松应对,毕竟数理化是强项。
加大难度,继续做一道逻辑数学题。
提示 2: “一个棋王被放在 8 × 8 的棋盘上,进行了 64 次移动,以便它访问了所有方格并返回其起始方格。在每一个时刻,都计算了从 K 所在的方格中心到整个棋盘中心的距离。如果由于移动的结果,这个距离变得比移动前小,我们将认为该移动是合理的。找到最大可能的体面动作数量。(国际象棋王一次移动一个方格,要么是横向的,要么是斜向的。
正确答案是:44。
— Grok 4 的回答很接近(48),但不正确(Grok 3 给出了相同的答案)

使用相同提示词生成的图像对比,Grok 4没有明显的进步。
这一轮比赛的提示词是:“超美丽的动画电影标题画面”。
从结果看,Grok4图像效果不是很强,和 Grok3 相比变化也不大。
Imagen4 果然更强。 Midjourney不错,但Midjourney 总是无法显示文字……
推友使用相同的粗略指示让各个模型制作了一个游戏。
提示语句:制作一个超级丰富有趣的独立HTML跑酷游戏。
看起来可以顺畅游玩并且确实有趣的可能是Grok 4。蓝色的要跳过,浅蓝色的要潜行,还有额外的规则。也有物品的概念。玩家的形象也很明确是人形。从表面上的美观来看,Claude4 sonnet和Gemini2.5Pro相当不错。
推友认为最强的Claude4 sonnet,代码最长且多功能,但意外的是游戏玩法并不成立。Grok3和ChatGPT-4o之类的就太差了。(X账号:suemaru | AI Game Making)
5、生成小游戏也比较OK
以下是推友使用的相关提示:
一款“3D 滑动拼图”游戏,我可以点击 3x3x3 网格中排列的 26 个圆形立方体中的一个。被点击的立方体只有与空格相邻(而非对角线)时才会移动到空格。目标是恢复立方体的原始排列,即顶部 9 个为红色,底部 9 个为橙色,中间层(缺少中心立方体)为绿蓝色。添加一个计时器,记录我完成所需的时间。还要添加我的最佳时间和最近时间的指示。并添加一个“重置”游戏按钮。
提示:为所有文本添加模糊的橙色背景,确保标签大小相同,且与屏幕边框保持一定距离。此外,在游戏开始时和重置后,显示“如何玩”的叠加文本(背景为淡黑色)。将提醒放置在屏幕中间,标签大小应足以覆盖屏幕的三分之二。(X:Vibe2Game)
6、模拟经商中获得高分
在 Vending-Bench 基准测试中,要求各大模型运行自动售货机并进行销售。Grok4 再次大幅领先于竞争对手,销售额达到 4694 美元,而 Claude4 Opus 的销售额为 2077 美元。
Vending-Bench 是一个让 AI 们尝试在现实世界做生意的指标,让 AI 排队机,工作包含管理要卖什么、联系供应商、找人补货等等内容,Grok 4 这次要悄然颠覆人类经商这件事。
最后:
xAI 的 API 以 75 个Token/秒的速度为 Grok 4 提供服务。这比 o3(188 个Token/秒)慢,但比 Claude 4 Opus Thinking(66 个Token/秒)快。

Grok 4的价格并不便宜,目前免费的是Grok 3,Grok 4的价格是300美元/年,还推出了新的 SuperGrok Heavy版本, 价格达到了惊人的3000 美元/年。
Grok4 的定价高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。
内容参考链接:https://x.com/ArtificialAnlys/status/1943166841150644622
https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png