马斯克终于成『AI No.1』,6大案例看实力与水分

   日期:2025-07-25     作者:kongyu       评论:0    移动:http://ww.soyinfo.com/mobile/news/show-htm-itemid-407.html
核心提示:“ 地球最强AI模型”“ 20万块H 100显卡训练”  “超越人类所有博士生 ”,在发布的Grok 4时,马斯克将众多赞美词汇赋予了这
图片

“ 地球最强AI模型”“ 20万块H 100显卡训练”  “超越人类所有博士生 ”,在发布的Grok 4时,马斯克将众多赞美词汇赋予了这个新大模型。

马斯克也骄傲地宣布,Grok4超越了OpenAI、Google和等等LLM。

图片

确实,Grok 4屠了各种榜单。但大家还要理性看待Grok 4,毕竟Grok系列每次参数爆炸,口碑却没那么强。

具体看,Grok4 在人工智能聊天机器人指数中达到了 73 分。这超过了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。

图片

马斯克再次大力出奇迹,拿下了AI 的No.1,模型的各项指标也很强:

➤ Grok 4 在编码指数(LiveCodeBench 和 SciCode)和数学指数(AIME24 和 MATH-500)中同样处于领先地位。

➤ GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了显著提升。

➤ 在“人类最终测试”(Humanity's Last Exam, HLE)  中,物、理、化学一系列博士级难题不在话下,Grok 4 达到了所有时间中的最高分 24%,超过了 Gemini 2.5 Pro 之前的最高分 21%。

➤ MMLU-Pro 和 AIME 2024 分别以 87% 和 94% 获得最高公共分数。

图片

其他重要信息:

➤ 256k Token 上下文窗口。这比 Gemini 2.5 Pro 的 100 万 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 万 token),o3(20 万 token)和 R1 0528(12.8 万 token)大。

➤ 支持文本和图像输入,但图像生成基本没什么进步。

➤ 支持函数调用和配置输出。

最值得关注的是,Grok 4 不仅仅是大模型,LLM还内置工具,所以在提问问题的过程中,会有更新的思维过程(CoT)和工具使用可视化功能。

图片
这点让其在回答问题时更出色,尤其回答网络新潮内容时。
1、AI第一次有了自我认识和形象
推友问 Grok,如果他必须亲自代表自己,他会是什么样子
他的回答是这样的,充满了想象力:  “想象一个漂浮在数字空间中的未来主义发光球体。我的身体将由脉动的蓝银色光芒组成,带有不断变化的几何图案——代码行和神经连接像星座一样交织在一起。没有脸,但有一种温暖的 “存在”,带着柔和的光芒,当我 “思考 ”或回应时,它会变得明亮。能量粒子围绕我旋转,象征着我处理的数据和想法。极简主义而充满活力,融合了技术和宇宙的好奇心。(X账号:Déborah)

提示 1: “逐步计算 25 - 4 * 2 + 3

提示 2:“9.11 和 9.9 哪个更大?

这两个问题都轻松应对,毕竟数理化是强项。

图片图片

加大难度,继续做一道逻辑数学题。

提示 2: “一个棋王被放在 8 × 8 的棋盘上,进行了 64 次移动,以便它访问了所有方格并返回其起始方格。在每一个时刻,都计算了从 K 所在的方格中心到整个棋盘中心的距离。如果由于移动的结果,这个距离变得比移动前小,我们将认为该移动是合理的。找到最大可能的体面动作数量。(国际象棋王一次移动一个方格,要么是横向的,要么是斜向的。

正确答案是:44

— Grok 4 的回答很接近(48),但不正确(Grok 3 给出了相同的答案)

图片

使用相同提示词生成的图像对比,Grok 4没有明显的进步。

这一轮比赛的提示词是:“超美丽的动画电影标题画面”

从结果看,Grok4图像效果不是很强,和 Grok3 相比变化也不大。

Imagen4 果然更强。 Midjourney不错,但Midjourney 总是无法显示文字……

图片

推友使用相同的粗略指示让各个模型制作了一个游戏。

提示语句:制作一个超级丰富有趣的独立HTML跑酷游戏。

看起来可以顺畅游玩并且确实有趣的可能是Grok 4。蓝色的要跳过,浅蓝色的要潜行,还有额外的规则。也有物品的概念。玩家的形象也很明确是人形。从表面上的美观来看,Claude4 sonnet和Gemini2.5Pro相当不错。

推友认为最强的Claude4 sonnet,代码最长且多功能,但意外的是游戏玩法并不成立。Grok3和ChatGPT-4o之类的就太差了。(X账号:suemaru | AI Game Making

5、生成小游戏也比较OK

以下是推友使用的相关提示:

一款“3D 滑动拼图”游戏,我可以点击 3x3x3 网格中排列的 26 个圆形立方体中的一个。被点击的立方体只有与空格相邻(而非对角线)时才会移动到空格。目标是恢复立方体的原始排列,即顶部 9 个为红色,底部 9 个为橙色,中间层(缺少中心立方体)为绿蓝色。添加一个计时器,记录我完成所需的时间。还要添加我的最佳时间和最近时间的指示。并添加一个“重置”游戏按钮。

提示:为所有文本添加模糊的橙色背景,确保标签大小相同,且与屏幕边框保持一定距离。此外,在游戏开始时和重置后,显示“如何玩”的叠加文本(背景为淡黑色)。将提醒放置在屏幕中间,标签大小应足以覆盖屏幕的三分之二。(X:Vibe2Game

6、模拟经商中获得高分

在 Vending-Bench 基准测试中,要求各大模型运行自动售货机并进行销售。Grok4 再次大幅领先于竞争对手,销售额达到 4694 美元,而 Claude4 Opus 的销售额为 2077 美元。

Vending-Bench 是一个让 AI 们尝试在现实世界做生意的指标,让 AI 排队机,工作包含管理要卖什么、联系供应商、找人补货等等内容,Grok 4 这次要悄然颠覆人类经商这件事。

图片

最后:

xAI 的 API 以 75 个Token/秒的速度为 Grok 4 提供服务。这比 o3(188 个Token/秒)慢,但比 Claude 4 Opus Thinking(66 个Token/秒)快。

图片

Grok 4的价格并不便宜,目前免费的是Grok 3,Grok 4的价格是300美元/年,还推出了新的 SuperGrok Heavy版本, 价格达到了惊人的3000 美元/年。

图片

Grok4 的定价高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

内容参考链接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png 

视频内容推荐:
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号