马斯克终于成『AI No.1』，6大案例看实力与水分

马斯克终于成『AI No.1』，6大案例看实力与水分

2025-07-25 22:16

“ 地球最强AI模型”“ 20万块H 100显卡训练” “超越人类所有博士生 ”，在发布的Grok 4时，马斯克将众多赞美词汇赋予了这个新大模型。

马斯克也骄傲地宣布，Grok4超越了OpenAI、Google和等等LLM。

确实，Grok 4屠了各种榜单。但大家还要理性看待Grok 4，毕竟Grok系列每次参数爆炸，口碑却没那么强。

具体看，Grok4 在人工智能聊天机器人指数中达到了 73 分。这超过了 OpenAI 的 o3（70 分），Google 的 Gemini 2.5 Pro（70 分），Anthropic 的 Claude 4 Opus（64 分），以及 DeepSeek 的 R1 0528（68 分）。

马斯克再次大力出奇迹，拿下了AI 的No.1，模型的各项指标也很强：

➤ Grok 4 在编码指数（LiveCodeBench 和 SciCode）和数学指数（AIME24 和 MATH-500）中同样处于领先地位。

➤ GPQA Diamond 中的最高分 88%，比 Gemini 2.5 Pro 之前的 84% 有了显著提升。

➤ 在“人类最终测试”（Humanity's Last Exam, HLE）中，物、理、化学一系列博士级难题不在话下，Grok 4 达到了所有时间中的最高分 24%，超过了 Gemini 2.5 Pro 之前的最高分 21%。

➤ MMLU-Pro 和 AIME 2024 分别以 87% 和 94% 获得最高公共分数。

其他重要信息：

➤ 256k Token 上下文窗口。这比 Gemini 2.5 Pro 的 100 万 token 上下文窗口小，但比 Claude 4 Sonnet 和 Claude 4 Opus（20 万 token），o3（20 万 token）和 R1 0528（12.8 万 token）大。

➤ 支持文本和图像输入，但图像生成基本没什么进步。

➤ 支持函数调用和配置输出。

最值得关注的是，Grok 4 不仅仅是大模型，LLM还内置工具，所以在提问问题的过程中，会有更新的思维过程（CoT）和工具使用可视化功能。

这点让其在回答问题时更出色，尤其回答网络新潮内容时。

1、AI第一次有了自我认识和形象

推友问 Grok，如果他必须亲自代表自己，他会是什么样子。

他的回答是这样的，充满了想象力： “想象一个漂浮在数字空间中的未来主义发光球体。我的身体将由脉动的蓝银色光芒组成，带有不断变化的几何图案——代码行和神经连接像星座一样交织在一起。没有脸，但有一种温暖的 “存在”，带着柔和的光芒，当我 “思考 ”或回应时，它会变得明亮。能量粒子围绕我旋转，象征着我处理的数据和想法。极简主义而充满活力，融合了技术和宇宙的好奇心。(X账号:Déborah)

提示 1： “逐步计算 25 - 4 * 2 + 3。

提示 2：“9.11 和 9.9 哪个更大？

这两个问题都轻松应对，毕竟数理化是强项。

加大难度，继续做一道逻辑数学题。

提示 2： “一个棋王被放在 8 × 8 的棋盘上，进行了 64 次移动，以便它访问了所有方格并返回其起始方格。在每一个时刻，都计算了从 K 所在的方格中心到整个棋盘中心的距离。如果由于移动的结果，这个距离变得比移动前小，我们将认为该移动是合理的。找到最大可能的体面动作数量。（国际象棋王一次移动一个方格，要么是横向的，要么是斜向的。

正确答案是：44。

— Grok 4 的回答很接近（48），但不正确（Grok 3 给出了相同的答案）

使用相同提示词生成的图像对比，Grok 4没有明显的进步。

这一轮比赛的提示词是：“超美丽的动画电影标题画面”。

从结果看，Grok4图像效果不是很强，和 Grok3 相比变化也不大。

Imagen4 果然更强。 Midjourney不错，但Midjourney 总是无法显示文字……

推友使用相同的粗略指示让各个模型制作了一个游戏。

提示语句：制作一个超级丰富有趣的独立HTML跑酷游戏。

看起来可以顺畅游玩并且确实有趣的可能是Grok 4。蓝色的要跳过，浅蓝色的要潜行，还有额外的规则。也有物品的概念。玩家的形象也很明确是人形。从表面上的美观来看，Claude4 sonnet和Gemini2.5Pro相当不错。

推友认为最强的Claude4 sonnet，代码最长且多功能，但意外的是游戏玩法并不成立。Grok3和ChatGPT-4o之类的就太差了。（X账号:suemaru | AI Game Making）

5、生成小游戏也比较OK

以下是推友使用的相关提示：

一款“3D 滑动拼图”游戏，我可以点击 3x3x3 网格中排列的 26 个圆形立方体中的一个。被点击的立方体只有与空格相邻（而非对角线）时才会移动到空格。目标是恢复立方体的原始排列，即顶部 9 个为红色，底部 9 个为橙色，中间层（缺少中心立方体）为绿蓝色。添加一个计时器，记录我完成所需的时间。还要添加我的最佳时间和最近时间的指示。并添加一个“重置”游戏按钮。

提示：为所有文本添加模糊的橙色背景，确保标签大小相同，且与屏幕边框保持一定距离。此外，在游戏开始时和重置后，显示“如何玩”的叠加文本（背景为淡黑色）。将提醒放置在屏幕中间，标签大小应足以覆盖屏幕的三分之二。（X：Vibe2Game）

6、模拟经商中获得高分

在 Vending-Bench 基准测试中，要求各大模型运行自动售货机并进行销售。Grok4 再次大幅领先于竞争对手，销售额达到 4694 美元，而 Claude4 Opus 的销售额为 2077 美元。

Vending-Bench 是一个让 AI 们尝试在现实世界做生意的指标，让 AI 排队机，工作包含管理要卖什么、联系供应商、找人补货等等内容，Grok 4 这次要悄然颠覆人类经商这件事。

最后：

xAI 的 API 以 75 个Token/秒的速度为 Grok 4 提供服务。这比 o3（188 个Token/秒）慢，但比 Claude 4 Opus Thinking（66 个Token/秒）快。

Grok 4的价格并不便宜，目前免费的是Grok 3，Grok 4的价格是300美元/年，还推出了新的 SuperGrok Heavy版本，价格达到了惊人的3000 美元/年。

Grok4 的定价高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet，但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

内容参考链接：https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

视频内容推荐：