马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜
11 月 18 日消息,埃隆・马斯克(Elon Musk)旗下的人工智能公司 xAI 昨日(11 月 17 日)发布公告,宣布推出最新大语言模型 Grok 4.1,并已面向、𝕏 平台及移动应用(iOS 和安卓)所有用户全面推送。
图片
本次更新旨在全面提升 Grok 在真实世界场景下的可用性。官方表示,Grok 4.1 不仅继承了前代模型敏锐的智能与高可靠性,更在创造性、情感理解和协作互动方面实现了重大改进,让其能够更精准地感知用户细微意图,提供更具吸引力和人格连贯性的对话体验。
图片
Grok 4.1 的性能实现了业界顶尖水平。在大型语言模型竞技场(LMArena)的文本能力排行榜上,其具备深度思考能力的版本(代号:quasarflux)以 1483 的 Elo 分数高居榜首,领先第二名达 31 分。IT之家附上相关截图如下:
图片
更引人注目的是,其无需深度思考的“即时响应”版本也以 1465 的 Elo 分数位列第二,性能甚至超越了其他所有模型的“全推理”模式。这一成绩相较于前代 Grok 4(排名第 33 位)实现了巨大飞跃,也印证了其在底层能力上的绝对优势。
图片
除了在通用能力基准测试中表现出色,Grok 4.1 还在“软实力”方面取得了显著进步。在衡量模型情商的 EQ-Bench3 基准测试和评估创意能力的 Creative Writing v3 测试中,新模型均表现优异。
图片
在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中,Grok 4.1 的推理与非推理模式包揽了榜单前两名。
图片
在创意写作领域,根据 Creative Writing v3 基准测试结果,Grok 4.1 的两种模式分别位列第二和第三,仅次于早期的 GPT-5.1 模型。
图片
这意味着 Grok 4.1 不仅能处理复杂的逻辑推理,还能更好地理解并回应带有人类情感的提示,进行富有想象力的内容创作,让其在人机交互中更具“人情味”。
另一项关键改进在于大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型而言,由于推理深度和工具调用预算有限,容易出现事实性错误。
图片
在 Grok 4.1 的训练后期,特别针对优化信息查询类提示,专注于减少事实性幻觉。根据对真实世界查询样本的评估,新模型的幻觉率已显著降低,从而为用户提供更可靠、更准确的信息。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 终于看到霉豆腐的“前半生”了
- 现身说法!2026年农村老房子如何改造?空气能大受欢迎
- 越来越多的家庭,开始放弃淋浴房了,现在年轻人流行这样装!
- 仅次于印度小叶紫檀的高端木材,质感温润,非常上档次
- 揭示厨房装饰中常见的五大误区,别再犯了!
- 年轻人的“反骨装修”:明装线管!就是要工业风,虽然贵,但酷到没朋友!
- 居然之家马来西亚公司与Senheng签约 共拓马来西亚家居零售新格局
- 预算有限?高性价比现代风全屋定制,颜值与实用并存
- 2026考研成绩&国家线公布时间!(附历年国家线趋势图)
- 评论丨教师期末“负担”与总结活动“初衷”,如何不再错位?
- “取消中考选拔功能,全员升普高”?看这座海岛县城如何跳出“一考定音”
- 关于北京楼真相的40组数据丨数据周报
- 现房启幕|金隅·望京云尚【启元】入市 兑现“第二CBD”高阶生活
- 热点作文素材 | 语文考试救急!连夜为儿子准备的热点素材,娃直呼管用
- 装修插座布局最容易遗漏!这10个位置装了才知道多香
- 24岁男生的40㎡“单间”火了:自己睡客厅,卧室改成“电竞房”!
- 装修翻车能有多离谱?看完这些奇葩设计,我庆幸自己没钱
- 全球每3把转椅就有1把来自这里:浙江安吉,这个产业年入几百亿
- 避开吊顶 / 选灯 / 布线 3 大雷区,无主灯装完不显压抑还实用