Mistral 发布了 Mistral 3 系列
去年的时候,他们是开源届的当红炸子鸡
然后...已经一年多没发模型了

Base Model 对比,对标 DeepSeek 和 Kimi
他们的官方对比很有意思
对标的不再是 GPT/Claude/Gemini
而只有中国模型, DeepSeek-3.1 和 Kimi-K2
补充一个冷知识...Mistral 是一家法国公司,被认为是欧洲的希望
估值....140亿 美金

一定是哪里踏马出了什么问题
先说旗舰
Mistral Large 3,675B 总参数,41B 激活参数,MoE 架构,全系列 Apache 2.0 开源,reasoning 版本即将推出
LMArena 排名开源非推理模型第二,总榜第六

LMArena 排名
训练方面,使用了3000 张 NVIDIA H200
评测信息
对于Mistral Large 3,官方给了和 DeepSeek V3.1、Kimi K2 的对比数据,如下

Base Model 对比,对标 DeepSeek 和 Kimi
第三方做的模型人类评估(虽然也不知道是啥)
Mistral 对 DeepSeek 胜率 53%,对 Kimi 胜率 55%
多语言任务上差距更大,对 DeepSeek 胜率 57%,对 Kimi 胜率 60%

Instruct 模型人类评估,第三方做的
再说小模型
Ministral 3 系列还有几个小尺寸模型,3B、8B、14B 三个尺寸,都是 dense 模型
每个尺寸都有 pretraining、instruct、reasoning 三个版本
全系列支持图像理解,支持 40+ 语言
官方说 Ministral instruct 生成的 token 数量比同级别模型少一个数量级
14B reasoning 版本在 AIME '25 上跑到 85%

GPQA Diamond Accuracy 对比14B 系列跑分

Ministral 14B benchmark: pretraining

Ministral 14B benchmark: instruct

Ministral 14B benchmark: reasoning8B 系列跑分

Ministral 8B benchmark: pretraining

Ministral 8B benchmark: instruct

Ministral 8B benchmark: reasoning3B 系列跑分

Ministral 3B benchmark: pretraining

Ministral 3B benchmark: instruct

Ministral 3B benchmark: reasoning
部署
和 NVIDIA、vLLM、Red Hat 合作做了优化
Large 3 可以在 Blackwell NVL72 系统上跑,也可以在单个 8×A100 或 8×H100 节点上跑
Ministral 系列可以跑在 DGX Spark、RTX PC、Jetson 设备上
API 服务上,已上线各主力算力平台,并提供定制训练服务
最后
我提个有趣的点,这个是 Mistral2 发布时候,评测对比上,一水的海外模型

Mistral 2 发布的对比
而 Mistral3 则都选的是中国模型,或许也可以理解为...中国的开源模型,或已是全球的标杆...
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 不凡家居取得一种燃气灶和橱柜专利,可以适应各种大小的预留嵌装孔
- 上海南京东路ZARA旗舰店焕新 “马年律动”点亮2400㎡时尚地标
- “愚蠢的家”:为何这款时尚风格成为新宠?
- 家里一尘不染,人心却渐行渐远:被“无菌”标准绑架的中国家庭
- “阳宅风水宝书”彻底火了,连吉凶判断方法都写的明明白白
- 还是年轻人是懂收纳的!以前看不上的边角,居然全是“宝藏空间”
- 日子过久了才懂:这6种厨房装修已经“跌下神坛”,可别装了!
- 上海老洋房里的建筑工作室,“万象入窗”的具象化身
- 重磅!国贤府PARK官宣,见证一个“湾区”的兑现
- 重磅!绵中英才学校、小岛幼稚园正式移交绵阳科发集团
- 奥迪E5 Sportback斩获2025微博年度车型
- 日产给电车装上太阳能板,单日最多可增加21公里,但量产仍是难题
- 外媒评在售最丑7款车,两款中国车躺枪?
- 达喀尔上没拿到奖杯 但212 T01的叙事可以写的更好
- 春节带家人选 MPV?这两台先看,最后一台才是真省心!
- 全新问界M7增程长续航版正式开启全国交付,纯电续航327公里
- 魏建军再出招,魏牌旗舰之作V9X有何看点?
- 舟山守岛人招2男2女:2个月下1次岛
- 黄金白银急速大跳水 发生了啥