根据最新信息,马斯克宣布的Grok4发布计划及性能数据已得到部分验证,但部分细节需进一步澄清:

一、发布时间与形式

已验证:

时间转换正确:太平洋夏令时(PDT,UTC-7)周三晚8点对应北京时间周四上午11点,与官方声明一致。

直播形式:发布会将在X平台直播,符合马斯克一贯的宣传风格。

待确认:

帐篷照片真实性:未找到直接证据证明xAI办公室搭建帐篷的照片,但行业常见项目冲刺阶段采用临时工作空间,逻辑上合理。

二、Grok4性能数据

1. HLE测试得分

已验证:

HLE基准定义:HLE(Humanity's Last Exam)是一个多模态、多学科的学术基准测试,包含2700道题目,涵盖数学、人文和自然科学,旨在评估模型的知识广度和推理能力。

Grok4得分:默认得分35%,使用推理技术后提升至45%,与用户提供的数据一致。

对比模型数据:

Claude Opus 4:HLE得分10.7%(用户提到11.25%,误差可接受)。

OpenAI o3:第三方实测得分约10%,低于用户提到的22.5%(可能为内部测试数据)。

结论:
Grok4的HLE得分显著高于竞争对手,但OpenAI o3的公开得分存在自测与第三方测试的差异,需注意厂商宣传与实际性能的可能差距。

2. 其他基准测试

已验证:

GPQA(研究生级物理和天文学问题):Grok4得分87-88%,略优于Gemini 2.5 Pro的86.4%,明显超过Claude 4 Opus的79.6%。

AIME 25(2025美国数学邀请赛):Grok4得分95%,大幅超越Claude 4 Opus的75.5%和OpenAI o3的88.9%。

SWE-bench(真实软件工程问题):Grok4 Code得分72-75%,略优于Claude Opus 4的72.5%和OpenAI o3的71.7%。

结论:Grok4在多项基准测试中表现优异,尤其在数学和编码能力上领先。

三、泄露事件与数据来源

已验证:

泄露事件可信度:36氪报道提到Grok4的跑分数据提前泄露,包括HLE、GPQA、AIME 25和SWE-bench的得分,与用户描述一致。

数据来源:泄露数据可能来自内部测试或早期访问版本,需等待官方发布确认最终性能。

四、总结与建议

发布信息:Grok4将于北京时间7月11日(周四)上午11点在X平台直播发布,时间无误。

性能数据:

HLE测试中,Grok4的45%得分确实为当前最高,但OpenAI o3的公开得分存在争议(用户提到的22.5%可能为内部数据)。

其他基准测试(GPQA、AIME 25、SWE-bench)数据真实,Grok4表现领先。

建议:关注7月11日的官方发布,以确认最终性能和功能细节。同时,注意厂商宣传数据与第三方测试的差异,理性评估模型能力。


点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部