【TechWeb】北京时光2月18日半夜,埃隆·马斯克的人工智能始创公司xAI宣布了Grok 3年夜模子,马斯克称之为“地球上最聪慧的人工智能”。Grok 3的宣布,势必将当初曾经炙热的模子之战推向新的热潮。Grok3的现场演示在当天的直播中,马斯克与该公司的三位工程师一同停止了现场演示,包含应用Grok3辅助火星飞船盘算航天发射窗口,以及把俄罗斯方块跟消消乐两款游戏“融会成一款”等。尤其是工程师仅用“开辟联合俄罗斯方块跟宝石迷阵弄法的2D游戏”这一天然言语指令,Grok3实现中心代码天生与调试的演示令人印象深入。在演示的进程中,马斯克请求应用Grok 3应用pygame组件计划一款游戏,把俄罗斯方块跟宝石迷阵缝合到一同。同时还提醒代码可能会很长,须要保留到一个文件傍边,运转胜利后,天生的游戏即保存了俄罗斯方块的经典弄法,并且还参加了“同色打消”的新规矩。在宣布会上,马斯克放话,以后Space X的发射义务,包含2026年火星摸索义务,都将会借助Grok 3停止AI帮助。随后,在场的工程师请求Grok 3现场天生一段太空发射3D动画的代码,而在Grok-3天生代码后,马斯克团队运转这段代码,之后画面上表现出了飞船在地球跟火星间来回的动画的演示,凸起了Grok-3的编程才能,这对AI模子懂得庞杂物理常识的请求十分高。马斯克对此表现,咱们十分愉快可能推出 Grok-3,咱们以为,在很短的时光内,它的功效比Grok-2强盛一个数目级。这要归功于一支不堪设想的团队的辛苦任务,我很幸运能与如许一支优良的团队配合。别的,他还猜测,三年内,盘算机将在各方面攻破人类程度,实现诺贝尔奖级别冲破。推理才能超竞争敌手宣布调演示表现,在数学推理、迷信逻辑推理等多方面的机能表示上,Grok3跟Grok-3 mini都超越或媲美Gemini、DeepSeek跟ChatGPT等敌手,别的xAI还推出了功效更为强盛的Grok3 Thinking推理形式。详细表示在Grok3 在 AIME 24(美国数学比赛)、GPQA(研讨生程度迷信常识问答才能的基准测试)等测试中均获得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 跟 GPT-4o 更好的后果。尤其在推理方面 ,Grok 3 Reasoning 跟 Grok 3 mini Reasoning 在 AIME 24、GPQA 等测试中获得了压服性的上风,最高分到达 96 分,超越了 o3 mini(high)、o1 跟 DeepSeek-R1 等前沿模子。乃至在最新的 AIME 2025 评测中 ,Grok3 推理系列模子更是到达了 90 及以上的分数,略微当先 o3 mini(high) 的 87 分。别的,在 Chatbot Arena 评价中,Grok-3 的得分更是到达了 1400 分,同样超越了 Gemini 系列跟 chatgpt-4o 跟 DeepSeek-R1。值得一提的是,GPT-4o跟Gemini比拟,Grok 3在处置庞杂成绩时不只能给出准确谜底,还能具体说明解题思绪,辅助用户懂得背地的逻辑。除了数学、编程、推理才能超强外,Grok3的多模态才能也是晋升显明,别的,Grok 3引入了DeepSearch,它可能扫描互联网跟X平台(原Twitter),为用户供给信息择要,辅助用户查找最新的科技信息。在宣布会现场,xAI团队猜测2025年NCAA“猖狂三月”篮球赛的全体输赢成果,终极Grok 3给出了它以为的2025年NCAA冠军,详细猜测准确与否,谜底行将在3月发表。xAI团队在直播中展现称,在练习Grok的进程中,团队搭建了年夜型算力集群,并战胜了散热、电力等成绩带来的挑衅,用了122天让首批10万张GPU投入应用并畸形运转,后续还打算将集群范围持续扩展一倍。最后,马斯克表现,将来,最快一周后Grok 将取得“语音形式”。多少周后,Grok 3模子将与 DeepSearch功效一同呈现在xAI企业的API中。而当下一个版本完整宣布时,咱们将开源Grok的上一个版本。颇具挑衅象征的是,就在Grok 3宣布前数小时,OpenAI首席履行官兼结合开创人SamAltman表现,对高请求的测试者来说,试用GPT-4.5带来的AGI的感触休会,远比我预期的要深入得多,看来GPT-4.5曾经进入测试阶段,离正式宣布也不远了。能够预感,跟着Grok-3的宣布,头部AI年夜模子的竞争将愈演愈烈。(御风)