国产大模型对比评测-新增 kimi,deepseek

内容纲要

前言

几个月前,写了一篇国产大模型的对比评测 国产大模型谁最强?4厂家6款大模型评测

在这篇文章里,评测了智谱的 GLM4,阿里的千问 Max 和 Plus,百度的 ERNIE-BOT 和 ERNIE-BOT 4.0,讯飞的 Spark3.5。

现在很火的 kimi 没有测评,因为那个时候它还是比较低调的。如今 kimi 俨然已经是国产大模型第一梯队了,那么本次就对 kimi 也做个评测。

另外在一个群里,有群友推荐 deepseek,没有细看,大致印象是这个 deepseek 能力不错,token 单价极低,所以本次评测就是 kimi 和 deepseek 了,评测的提示词和语料还是和上次一样,以下是结果。

费用和接入难度

kimi 和 deepseek 的接入难度都是 easy,因为他们都最大限度兼容了 openai 的接口。

我发现 glm4 的接口更简单了,上次评测时,glm4 的鉴权还需要先获取 access token,然后使用 token 来调用接口,这次发现他们还支持直接用 api-key 来调用接口了

接入 kimi 和 deepseek 只需要将 glm4 的代码简单修改下,model 字段改为各自的模型名称就可以了。so easy

费用方面,kimi 注册以后赠送了 15 元,deepseek 则赠送了 500 万的 token,都比较友好。

从 千tokens 价格来评,deepseek 果然便宜,其他大模型普遍定价 1.2 分,它直接打了个一折,只要 0.1分,这个价格真的香。

而 kimi 并没有参与价格战,采用了 1.2 分/千tokens 这个主流价位。

模型 费用 接入方式 难易
kimi 赠送 15 元
1.2分/千tokens
https
deepseek 赠送 500 万 token
输入:0.1分/千 tokens
输出:0.2分/千tokens
https
GLM-4 限时免费 https
通义千问 Max 限时免费 https
通义千问 Plus 0.012元/千tokens https
ERNIE-Bot 0.012元/千tokens https 略难
ERNIE-Bot 4.0 0.12元/千tokens https 略难
星火 3.5 限时免费 wss 略难

能力评测

模型 成功率 失败明细 平均响应时间
moonshot-v1-8k(kimi) 100% 3,817 ms
deepseek-chat 80% 内容有风险,中断推理
json 解析失败,换行未转义
13,629 ms
GLM-4 80% json 解析失败,换行未转义
json 格式不标准,未正确结束
3,313 ms
通义千问 Max 80% 输入为程序代码,解释内容填入到翻译字段
英文提取关键词过多
8,883 ms
通义千问 Plus 80% json 解析失败
输入为中文,从译文里提取了关键词
3,933 ms
ERNIE-Bot 20% 将正常语句识别为程序代码,5次
将中文识别成英文
英文关键词提取过多,2次
4,893 ms
ERNIE-Bot 4.0 100% 13,392 ms
星火 3.5 40% 输出自然语言而不是 json
中文识别成英文
英文未提取关键词讲解
提取过多关键词
json 解析失败,换行未转义
未识别拼写错误
5,649 ms

kimi 通过了所有测试,而且对比其他大模型,他的指令遵从相当优秀。

deepseek 表现也不错,内容审核有点过头,其他大模型都能翻译的内容它提示有风险。另外有一个 json 换行没有处理好。它的指令遵从相比 kimi 弱一些。比如中文内容,我要求不要提取知识点,kimi 做到了,deepseek 则是从译文里提取了知识点。

结论

  • kimi 能力相当强,推理速度快,堪称完美。感觉还要强过之前我排第一名的 ERNIE-BOT 4.0。但是它的频控让人头疼,我是新注册用户,RPM 是 3,即一分钟只能调用 3 次,这个限制使它几乎没有实用价值。。。除此以外没有缺点

  • deepseek 的 500 万免费 token 很香,免费额度用完,按量付费的价格也是超低,自身能力也是很不错。但是,它太慢了。

所以综合性价比和实用性,我依然推荐 GLM-4。如果你要做的应用不追求响应速度,那 deepseek 无疑更合适。

另外,deepseek 还有个针对 coding 训练的 deepseek-code 模型,这个模型更擅长编码,本次没有评测。说到编码能力,我用过通义灵码,也用过智谱的 codegeex,目前用 fitten code,不知道 fitten code 和 deepseek-code 哪个更强,有空会尝试下。

附录

gitee 源码

https://gitee.com/refusea/xiaoying

小英在线体验

https://read.refusea.com/xiaoying.html

测试日志

https://gitee.com/refusea/xiaoying/tree/master/test

国产大模型对比评测-新增 kimi,deepseek

One thought on “国产大模型对比评测-新增 kimi,deepseek

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Scroll to top
粤ICP备2020114259号 粤公网安备44030402004258