马斯克宣布Grok4将于7月10日发布

Grok4 5 阅读 0 评论 0 点赞

根据最新信息，马斯克宣布的Grok4发布计划及性能数据已得到部分验证，但部分细节需进一步澄清：

一、发布时间与形式

已验证：

时间转换正确：太平洋夏令时（PDT，UTC-7）周三晚8点对应北京时间周四上午11点，与官方声明一致。

直播形式：发布会将在X平台直播，符合马斯克一贯的宣传风格。

待确认：

帐篷照片真实性：未找到直接证据证明xAI办公室搭建帐篷的照片，但行业常见项目冲刺阶段采用临时工作空间，逻辑上合理。

二、Grok4性能数据

1. HLE测试得分

已验证：

HLE基准定义：HLE（Humanity's Last Exam）是一个多模态、多学科的学术基准测试，包含2700道题目，涵盖数学、人文和自然科学，旨在评估模型的知识广度和推理能力。

Grok4得分：默认得分35%，使用推理技术后提升至45%，与用户提供的数据一致。

对比模型数据：

Claude Opus 4：HLE得分10.7%（用户提到11.25%，误差可接受）。

OpenAI o3：第三方实测得分约10%，低于用户提到的22.5%（可能为内部测试数据）。

结论：
Grok4的HLE得分显著高于竞争对手，但OpenAI o3的公开得分存在自测与第三方测试的差异，需注意厂商宣传与实际性能的可能差距。

2. 其他基准测试

已验证：

GPQA（研究生级物理和天文学问题）：Grok4得分87-88%，略优于Gemini 2.5 Pro的86.4%，明显超过Claude 4 Opus的79.6%。

AIME 25（2025美国数学邀请赛）：Grok4得分95%，大幅超越Claude 4 Opus的75.5%和OpenAI o3的88.9%。

SWE-bench（真实软件工程问题）：Grok4 Code得分72-75%，略优于Claude Opus 4的72.5%和OpenAI o3的71.7%。

结论：Grok4在多项基准测试中表现优异，尤其在数学和编码能力上领先。

三、泄露事件与数据来源

已验证：

泄露事件可信度：36氪报道提到Grok4的跑分数据提前泄露，包括HLE、GPQA、AIME 25和SWE-bench的得分，与用户描述一致。

数据来源：泄露数据可能来自内部测试或早期访问版本，需等待官方发布确认最终性能。

四、总结与建议

发布信息：Grok4将于北京时间7月11日（周四）上午11点在X平台直播发布，时间无误。

性能数据：

HLE测试中，Grok4的45%得分确实为当前最高，但OpenAI o3的公开得分存在争议（用户提到的22.5%可能为内部数据）。

其他基准测试（GPQA、AIME 25、SWE-bench）数据真实，Grok4表现领先。

建议：关注7月11日的官方发布，以确认最终性能和功能细节。同时，注意厂商宣传数据与第三方测试的差异，理性评估模型能力。

点赞(0) 打赏