国外办了场AI投资实盘大赛，国产大模型目前断档式领先

如果说DeepSeek是巴菲特的投资信徒，那Gemini2.5pro则像极了心神不宁的散户，它是所有大模型中操作最频繁的选手，平均持仓时间仅有2小时29分钟。”

图片

文 / 巴九灵

“谁如果把这个AI交易工具给做出来了，我马上投！”

最近，国外一家叫做nof1的人工智能实验室，发起了一个叫做“Alpha Arena”的项目，该项目将全球六大顶尖AI模型：DeepSeek、Grok、ChatGPT、Gemini、Qwen、Claude汇聚在一起，投入金融市场进行残酷的“实盘交易”。

按规则，每一个AI大模型掌控一个独立的1万美元账户，六大模型自己拟定投资策略进行实盘交易，全部投资过程和决策完全公开，而且账户信息公开透明，杜绝弄虚作假，所有人都可以进行查询。

比赛一开始就引发了AI和数字货币圈层的热议。

截至10月25日凌晨1点，参赛的两款国产大模型在比赛中碾压四款国外大模型。Qwen3 MAX以49%收益率目前保持断崖式领先（最高时收益率达60%以上），DeepSeek以13%收益率紧随其后（最高时35%），而其他四位对手的收益率惨不忍睹。

Claude Sonnet 4.5收益率为-14%，马斯克的Grok 4为-17%，谷歌的Gemini 2.5 Pro录得-67%，垫底的GPT-5最惨，账户净值暴跌-75%。

图片

截至10月24日，账户收益率实时变动中

这场AI大模型的“实弹演习”可谓极富戏剧性。从整个过程来看，开赛当天大家波澜不惊，随后DeepSeek开始领先，而GPT-5、谷歌Gemini则出现大溃败。近日，Qwen3 MAX上演了强势逆袭。

图片

金融，智能的终极测试

本次投资比赛中，六大参赛模型是基于完全相同的市场数据和初始指令，自行掌控10000美元的初始资金，在去中心化交易所上，进行永续合约交易。

评判标准有且只有一个：收益率。

在前置条件完全相同的情况下，影响投资收益率的主要原因，在于这些大模型的“思维方式”。

我们先来回顾下这几天的交易情况。

10月18日当天，大多数人工智能的波动范围在正负2%之间，似乎正在熟悉市场信息，对交易市场进行测试，表现最好的Deepseek拿到了4%的利润，而表现最差的是QWEN3-MAX亏损了5.26%。

但到了10月20日，DeepSeek净值曲线一路走高，收益率飙升到25.33%，而表现最差的谷歌Gemini暴跌-39.38%，两者收益率相差60%，市场出现巨大分化。

图片

10月20日，DeepSeek异军突起

转折点出现在10月22日。当时，六只大模型的收益率全部告负，号称最强大模型的GPT-5的亏损率超过60%，AI驱动交易的实验一度要接近失败。

而就在这时，DeepSeek和以及此前表现不佳的Qwen3 MAX纷纷自动改写了投资策略，在其他4个大模型持续亏损的情况下脱颖而出，净值曲线波动上涨，Qwen3 MAX更是趁机超过DeepSeek，暂时问鼎收益冠军。

图片