马斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜

11 月 18 日消息，埃隆・马斯克（Elon Musk）旗下的人工智能公司 xAI 昨日（11 月 17 日）发布公告，宣布推出最新大语言模型 Grok 4.1，并已面向、𝕏 平台及移动应用（iOS 和安卓）所有用户全面推送。

图片

本次更新旨在全面提升 Grok 在真实世界场景下的可用性。官方表示，Grok 4.1 不仅继承了前代模型敏锐的智能与高可靠性，更在创造性、情感理解和协作互动方面实现了重大改进，让其能够更精准地感知用户细微意图，提供更具吸引力和人格连贯性的对话体验。

图片

Grok 4.1 的性能实现了业界顶尖水平。在大型语言模型竞技场（LMArena）的文本能力排行榜上，其具备深度思考能力的版本（代号：quasarflux）以 1483 的 Elo 分数高居榜首，领先第二名达 31 分。IT之家附上相关截图如下：

图片

更引人注目的是，其无需深度思考的“即时响应”版本也以 1465 的 Elo 分数位列第二，性能甚至超越了其他所有模型的“全推理”模式。这一成绩相较于前代 Grok 4（排名第 33 位）实现了巨大飞跃，也印证了其在底层能力上的绝对优势。

图片

除了在通用能力基准测试中表现出色，Grok 4.1 还在“软实力”方面取得了显著进步。在衡量模型情商的 EQ-Bench3 基准测试和评估创意能力的 Creative Writing v3 测试中，新模型均表现优异。

图片

在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中，Grok 4.1 的推理与非推理模式包揽了榜单前两名。

图片

在创意写作领域，根据 Creative Writing v3 基准测试结果，Grok 4.1 的两种模式分别位列第二和第三，仅次于早期的 GPT-5.1 模型。

图片

这意味着 Grok 4.1 不仅能处理复杂的逻辑推理，还能更好地理解并回应带有人类情感的提示，进行富有想象力的内容创作，让其在人机交互中更具“人情味”。

另一项关键改进在于大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型而言，由于推理深度和工具调用预算有限，容易出现事实性错误。

图片

在 Grok 4.1 的训练后期，特别针对优化信息查询类提示，专注于减少事实性幻觉。根据对真实世界查询样本的评估，新模型的幻觉率已显著降低，从而为用户提供更可靠、更准确的信息。