首页 > 活动线报 > 每日福利 > 文心一言、Kimi等4款AI大模型测评对比及推荐

文心一言、Kimi等4款AI大模型测评对比及推荐

发布时间:2024-04-28 17:11:04来源: 15210273549

现在,国内已经有海量大模型诞生,那么,哪款大模型的表现会更好?这篇文章里,作者站在自媒体人的角度,对四款大模型做了评估和对比,一起来看一下。


说到AI,很多人会想到ChatGPT,而我们现在也有许多好用的国产AI大模型。

在2023年的中国,8个月内诞生了238个大模型,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷下场,还有复旦、清华等高校机构加速研究,以及智谱AI、月之暗面等黑马出现。

这些海量AI大模型里,子木挑选了4款市面上反响比较好的、也是我常用的AI大模型进行评估对比,帮助你选择适合自己的国产AI大模型。

本文评估的4个AI大模型
文心一言4.0、通义千问、kimiAI、天工AI。

一、大语言模型的5个评估维度
对于AI大模型的评估,目前还没有权威、统一的评估维度,我根据文案创作的需求、使用习惯,建立了自己的AI大模型内容创作评估维度:


1. 语言质量与创意性
这是用AI创作中最关注的部分,体现AI写出来的内容质量。

它包括:

文本流畅度,用来评估AI生成的文案是否自然流畅,语法正确,符合人类日常交流习惯,我会用主题文章、简历撰写这两个题目来进行测试评估;

个性化内容,用来评估AI是否可以根据我们输入的个性化要求,比如语气、风格等等来定制文案,满足不同的创作需求,我会用不同人物介绍同一个事物的2个问题来进行测试评估。

2. 领域适应性
用来评估AI模型是否具备特定行业或领域的专业知识,能否生成相关性强、准确无误的文案内容,我比较关注的是新媒体、教育培训行业,所以我一般会用这两个行业的代表性问题来进行测试评估,这一块每个行业的问题不一样,大家可以根据自己的行业来设计问题。如果有需要的话,也可以提问或联系我交流。

3. 逻辑性
用来评估AI创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个问题来测试评估,逻辑推理题是看它的推理过程,结果是否正确,而故事的续写,看情节是否合理、人物的行为是否符合逻辑。

4. 时效性
时效性决定了AI生成内容时是否能用到最新的案例或事件、我们在用AI寻找资讯时是否能给到最新的信息。我会用最新的热点事件、1个月前、3个月前的3个不同问题,来评估测试AI的时效性。

5. 成本与易用性
AI作为一个辅助工具,是不是方便使用、使用成本如何,也是我们需要考虑的点。

二、4款国产大模型对比
1. 大模型简介
文心一言4.0:是百度推出的知识增强大语言模型,可以输出文本内容,也可以生成图片。
通义千问:是阿里云发布的千亿级参数大模型,可以分析文档,提炼文档的关键信息。
KimiAI:月之暗面开发的大模型,可以上传PDF、word、ppt、图片等多种格式的文档,还可以分析网页内容,比较有意思的是,还能直接访问小红书的链接,抓取内容进行总结。
天工AI:昆仑万维开发的双千亿级大语言模型,它的语言能力也很不错。
2. 文本流畅度对比
我把4个大模型写的“一花独放不是春”命题作文内容,给中学语文老师看了,满分60分,可以打到40分以上的程度,整体表现都还不错。

文心一言4.0的文笔流畅度更高,文彩也更好。对于主题的整体理解更加准确,没有什么逻辑问题,可以算得上是一篇文采不错的作文。

通义千问的流畅度也还不错,但是行文手法不如文心一言老练,比较中规中矩,相对文心一言4.0弱一些。

kimiAI的语言流畅度跟通义千问类似,但对于主题的理解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目本身的意思。

天工AI的行文流畅、老练,只是有一两个段落显得有些生搬硬套,前后意思不一致,有意思的是,天工AI表现出了比较强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公文类的可以优先考虑天工AI。

打分:

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐
3. 个性化内容对比
四个AI大模型都能够区分不同的口吻,同时,也能够区分不同的身份角色对于同一件事情所关注的不同的方面。

从8岁女孩的角度来介绍一辆新能源车,4个大模型都会把重点放在了车子是用电的、很神奇的描述上,也都用到了小孩子能理解的语言,用打比方的、形象化的描述来讲这个车子。其中,kimi AI对于角色年龄的把握比其他三个大模型稍微弱一点。

而从男企业家的角度来介绍新能源车,4个大模型都选择了将新能源车定义为这个企业家自己的产品,从更宏观的角度开始介绍这辆车,都表达了对于“未来出行”的创新和积极探索,侧重从技术的角度来介绍。

所以在个性化内容方面,4个大模型表现差不多,kimiAI要稍微弱一些。

打分:

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐ ⭐ ⭐
4. 逻辑性对比
AI思考逻辑测试,内容是一道经典的公务员考试的行测问题。

4个AI都在很短的时间内给出正确答案,AI参加公务员考试,估计能秒杀99.9%的人。

在回答的内容中,文心一言给到的思路最详尽、看起来条理也相对最清晰,而天工AI给到的思路最简略,没有描述太多的思考过程,我认为这是相对欠缺的。

AI续写逻辑测试,内容一个故事的续写。

我在故事里设计了3个人物,发现藏宝地图的小明、他的好朋友小帅、妹妹小美,而故事也是围绕着寻宝的冒险之旅展开,这样,就能考察AI对于人物的设定,是否符合逻辑,以及故事线是否符合逻辑。

在这个测试中,文心一言的表现相对较好,发挥了较强的对于人物风格的把控能力,能够在故事中写人物对话,对话的风格也符合3个人物的性格设定,故事内容更长,相对更细致。

而通义千问则发挥了更多的创造力,赋予了人物更多不同的特点,不过内容更概括简短。

kimi的表现与通义千问相似,也是通过赋予人物不同特点来塑造人物,对故事的描述更加细节一些,内容也稍长一点。

天工AI的内容则更加简短,没有把控不同的人物风格、也没有赋予人物不同的特点,表现相对是最弱的。

每日福利更多>>

还是国产车更懂国人,荣威D5X DMH空间大续航长,预售价11.98万起 看着像概念车,其实是量产车,东风猛士M HUNTER就是敢卖这么贵 买电车5年后,才发现这3大说法都是谎言,很多人还在傻傻的相信! 骁龙8gen3来到两千七价位段!还是2K旗舰直屏!真香 微软向Rust基金会捐赠100万美元:投资关键项目 苹果即将达成协议,将 Open AI 的 ChatGPT 生成式 AI 引入 IOS 18 搭载高通 X Elite 的戴尔笔记本电脑首次泄露 从此再无华为笔记本? 博主自制三星Galaxy Z Fold6折叠屏示意图,基于真实数据打造 中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人 昊铂HT 2024款北京站试驾体验表现亮眼,悉数诠释新能源SUV的魅力 新能源汽车的真正意义是什么? 东风岚图全新纯电SUV“知音”申报图曝光,下半年发布 不撞南墙不回头,全新一代北汽212实车正式亮相! 上汽荣威发布“大美好”——DMH超级混动技术品牌 三驾马车齐并进,上汽再攀新高峰 4月OTA月报:月更3次的蔚来,开局放大的小米 4月卖出1.5万辆,蔚来汽车售价高昂,为何销量却很稳定? 一款车做了8个配置,星纪元也想做奇瑞的豪华车? 新车 | 续航可达750公里,广汽埃安第二代AION V实车曝光,7月上市 阿维塔07官图发布,将采用增程+纯电的形式 哪吒S猎装版预计7月上市 提供纯电及插混两种动力 星途星纪元ET订单突破26000台 已正式开启交付 售价7.78万元起 专供西藏市场 北汽制造卡路里高原版上市 皮卡动力大升级 到底什么级别才是上等水平 先于比亚迪shark 江淮T9登陆墨西哥皮卡市场 售价23.2万元起 东风本田猎光e:NS2登场,有颜还有料,性比价堪比国产新势力? 起售价35.97万元,凯迪拉克CT6价格不便宜,实力怎么样 科学家进校园,点燃学生海洋强国梦想 首届全国大学生职业规划大赛总决赛颁奖,以促进大学生高质量充分就业为目标