分享好友 最新资讯首页 最新资讯分类 切换频道
马斯克终于成『AI No.1』,6大案例看实力与水分
2025-07-25 22:16
图片

“ 地球最强AI模型”“ 20万块H 100显卡训练”  “超越人类所有博士生 ”,在发布的Grok 4时,马斯克将众多赞美词汇赋予了这个新大模型。

马斯克也骄傲地宣布,Grok4超越了OpenAI、Google和等等LLM。

图片

确实,Grok 4屠了各种榜单。但大家还要理性看待Grok 4,毕竟Grok系列每次参数爆炸,口碑却没那么强。

具体看,Grok4 在人工智能聊天机器人指数中达到了 73 分。这超过了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。

图片

马斯克再次大力出奇迹,拿下了AI 的No.1,模型的各项指标也很强:

➤ Grok 4 在编码指数(LiveCodeBench 和 SciCode)和数学指数(AIME24 和 MATH-500)中同样处于领先地位。

➤ GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了显著提升。

➤ 在“人类最终测试”(Humanity's Last Exam, HLE)  中,物、理、化学一系列博士级难题不在话下,Grok 4 达到了所有时间中的最高分 24%,超过了 Gemini 2.5 Pro 之前的最高分 21%。

➤ MMLU-Pro 和 AIME 2024 分别以 87% 和 94% 获得最高公共分数。

图片

其他重要信息:

➤ 256k Token 上下文窗口。这比 Gemini 2.5 Pro 的 100 万 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 万 token),o3(20 万 token)和 R1 0528(12.8 万 token)大。

➤ 支持文本和图像输入,但图像生成基本没什么进步。

➤ 支持函数调用和配置输出。

最值得关注的是,Grok 4 不仅仅是大模型,LLM还内置工具,所以在提问问题的过程中,会有更新的思维过程(CoT)和工具使用可视化功能。

图片
这点让其在回答问题时更出色,尤其回答网络新潮内容时。
1、AI第一次有了自我认识和形象
推友问 Grok,如果他必须亲自代表自己,他会是什么样子
他的回答是这样的,充满了想象力:  “想象一个漂浮在数字空间中的未来主义发光球体。我的身体将由脉动的蓝银色光芒组成,带有不断变化的几何图案——代码行和神经连接像星座一样交织在一起。没有脸,但有一种温暖的 “存在”,带着柔和的光芒,当我 “思考 ”或回应时,它会变得明亮。能量粒子围绕我旋转,象征着我处理的数据和想法。极简主义而充满活力,融合了技术和宇宙的好奇心。(X账号:Déborah)

提示 1: “逐步计算 25 - 4 * 2 + 3

提示 2:“9.11 和 9.9 哪个更大?

这两个问题都轻松应对,毕竟数理化是强项。

图片图片

加大难度,继续做一道逻辑数学题。

提示 2: “一个棋王被放在 8 × 8 的棋盘上,进行了 64 次移动,以便它访问了所有方格并返回其起始方格。在每一个时刻,都计算了从 K 所在的方格中心到整个棋盘中心的距离。如果由于移动的结果,这个距离变得比移动前小,我们将认为该移动是合理的。找到最大可能的体面动作数量。(国际象棋王一次移动一个方格,要么是横向的,要么是斜向的。

正确答案是:44

— Grok 4 的回答很接近(48),但不正确(Grok 3 给出了相同的答案)

图片

使用相同提示词生成的图像对比,Grok 4没有明显的进步。

这一轮比赛的提示词是:“超美丽的动画电影标题画面”

从结果看,Grok4图像效果不是很强,和 Grok3 相比变化也不大。

Imagen4 果然更强。 Midjourney不错,但Midjourney 总是无法显示文字……

图片

推友使用相同的粗略指示让各个模型制作了一个游戏。

提示语句:制作一个超级丰富有趣的独立HTML跑酷游戏。

看起来可以顺畅游玩并且确实有趣的可能是Grok 4。蓝色的要跳过,浅蓝色的要潜行,还有额外的规则。也有物品的概念。玩家的形象也很明确是人形。从表面上的美观来看,Claude4 sonnet和Gemini2.5Pro相当不错。

推友认为最强的Claude4 sonnet,代码最长且多功能,但意外的是游戏玩法并不成立。Grok3和ChatGPT-4o之类的就太差了。(X账号:suemaru | AI Game Making

5、生成小游戏也比较OK

以下是推友使用的相关提示:

一款“3D 滑动拼图”游戏,我可以点击 3x3x3 网格中排列的 26 个圆形立方体中的一个。被点击的立方体只有与空格相邻(而非对角线)时才会移动到空格。目标是恢复立方体的原始排列,即顶部 9 个为红色,底部 9 个为橙色,中间层(缺少中心立方体)为绿蓝色。添加一个计时器,记录我完成所需的时间。还要添加我的最佳时间和最近时间的指示。并添加一个“重置”游戏按钮。

提示:为所有文本添加模糊的橙色背景,确保标签大小相同,且与屏幕边框保持一定距离。此外,在游戏开始时和重置后,显示“如何玩”的叠加文本(背景为淡黑色)。将提醒放置在屏幕中间,标签大小应足以覆盖屏幕的三分之二。(X:Vibe2Game

6、模拟经商中获得高分

在 Vending-Bench 基准测试中,要求各大模型运行自动售货机并进行销售。Grok4 再次大幅领先于竞争对手,销售额达到 4694 美元,而 Claude4 Opus 的销售额为 2077 美元。

Vending-Bench 是一个让 AI 们尝试在现实世界做生意的指标,让 AI 排队机,工作包含管理要卖什么、联系供应商、找人补货等等内容,Grok 4 这次要悄然颠覆人类经商这件事。

图片

最后:

xAI 的 API 以 75 个Token/秒的速度为 Grok 4 提供服务。这比 o3(188 个Token/秒)慢,但比 Claude 4 Opus Thinking(66 个Token/秒)快。

图片

Grok 4的价格并不便宜,目前免费的是Grok 3,Grok 4的价格是300美元/年,还推出了新的 SuperGrok Heavy版本, 价格达到了惊人的3000 美元/年。

图片

Grok4 的定价高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

内容参考链接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png 

视频内容推荐:
最新文章
镇坪县长寿药膳美食选拔赛!邀你共赴“棋”“味”长寿之约!【959推荐】
当秦巴晨露浸润黄连叶尖药乡烟火缠绕天麻醇香一场交织着康旅韵致与舌尖巧思的盛会正沿着镇坪县城徐徐铺展7月31日至8月2日,镇坪
以色列计划“全面军事占领”加沙并围困活跃城市,计划得到特朗普首肯
新华社援引以色列媒体28日报道称,以安全内阁正在考虑对加沙地带进行“全面军事占领”,并对巴勒斯坦伊斯兰抵抗运动(哈马斯)活
嘉信理财交易员Q3市场情绪调研:43%看涨加密货币、32%看涨现货加密ETF
金色财经报道,金融行业巨头(Charles Schwab)公发布2025年第三季度交易员情绪调查结果,调查结果显示交易员的整体市场乐观情绪显
今年上半年 山西社会融资存量规模达6.9万亿元
7月31日,从人民银行山西省分行举行的2025年上半年山西省金融统计数据新闻发布会获悉,上半年,全省社会融资存量规模达6.9万亿元
武清区举办“寻美武清”主题活动暨网络人士交流联谊活动
2025年7月31日,区委统战部、区委网信办联合举办“寻美武清”活动暨网络人士交流联谊活动,区委统战部、区委网信办相关负责同志
《扫毒风暴》大结局,马英子漂亮有才,为何卢少骅牺牲她偏爱哑女
段奕宏、秦昊主演的缉毒大剧《扫毒风暴》大结局了,卢少骅逃亡多年,终于被警方抓到,成功判了死刑,林强峰和卢少骅的猫鼠游戏,
城市更新推进情况报告:上海862个公园24小时开放 超目标完成“千座公园”计划
东方网记者项颖知7月31日报道:上海市十六届人大常委会第二十三次会议30日听取市政府关于城市更新工作推进情况的报告。近年来城
国产视频生成再突破!从影视级短片到远洋亲情连线,AI让天涯变咫尺
给专业导演配齐创作助手,还帮远洋海员实现“视频自由”。作者 | 陈骏达编辑 | 漠影起猛了,AI现在都能生成武打戏了,还是人虎搏
三全食品斥资13亿赴澳建厂 本土冻品企业出海步调不一
中经记者蒋政北京报道一直鲜有披露境外营收的(002216.SZ),突然筹划在海外投资建厂事宜。根据该公司日前发布的公告显示,计划
国补持续下发,富森美再迎政策利好
近日,国家发展改革委已会同财政部,向地方下达了今年第三批690亿元超长期特别国债支持消费品以旧换新资金,下一步将继续加强统
推荐文章