前言
几个月前,写了一篇国产大模型的对比评测 国产大模型谁最强?4厂家6款大模型评测
在这篇文章里,评测了智谱的 GLM4,阿里的千问 Max 和 Plus,百度的 ERNIE-BOT 和 ERNIE-BOT 4.0,讯飞的 Spark3.5。
现在很火的 kimi 没有测评,因为那个时候它还是比较低调的。如今 kimi 俨然已经是国产大模型第一梯队了,那么本次就对 kimi 也做个评测。
另外在一个群里,有群友推荐 deepseek,没有细看,大致印象是这个 deepseek 能力不错,token 单价极低,所以本次评测就是 kimi 和 deepseek 了,评测的提示词和语料还是和上次一样,以下是结果。
费用和接入难度
kimi 和 deepseek 的接入难度都是 easy,因为他们都最大限度兼容了 openai 的接口。
我发现 glm4 的接口更简单了,上次评测时,glm4 的鉴权还需要先获取 access token,然后使用 token 来调用接口,这次发现他们还支持直接用 api-key 来调用接口了
接入 kimi 和 deepseek 只需要将 glm4 的代码简单修改下,model 字段改为各自的模型名称就可以了。so easy
费用方面,kimi 注册以后赠送了 15 元,deepseek 则赠送了 500 万的 token,都比较友好。
从 千tokens 价格来评,deepseek 果然便宜,其他大模型普遍定价 1.2 分,它直接打了个一折,只要 0.1分,这个价格真的香。
而 kimi 并没有参与价格战,采用了 1.2 分/千tokens 这个主流价位。
模型 | 费用 | 接入方式 | 难易 |
---|---|---|---|
kimi | 赠送 15 元 1.2分/千tokens |
https | 易 |
deepseek | 赠送 500 万 token 输入:0.1分/千 tokens 输出:0.2分/千tokens |
https | 易 |
GLM-4 | 限时免费 | https | 易 |
通义千问 Max | 限时免费 | https | 难 |
通义千问 Plus | 0.012元/千tokens | https | 难 |
ERNIE-Bot | 0.012元/千tokens | https | 略难 |
ERNIE-Bot 4.0 | 0.12元/千tokens | https | 略难 |
星火 3.5 | 限时免费 | wss | 略难 |
能力评测
模型 | 成功率 | 失败明细 | 平均响应时间 |
---|---|---|---|
moonshot-v1-8k(kimi) | 100% | 无 | 3,817 ms |
deepseek-chat | 80% | 内容有风险,中断推理 json 解析失败,换行未转义 |
13,629 ms |
GLM-4 | 80% | json 解析失败,换行未转义 json 格式不标准,未正确结束 |
3,313 ms |
通义千问 Max | 80% | 输入为程序代码,解释内容填入到翻译字段 英文提取关键词过多 |
8,883 ms |
通义千问 Plus | 80% | json 解析失败 输入为中文,从译文里提取了关键词 |
3,933 ms |
ERNIE-Bot | 20% | 将正常语句识别为程序代码,5次 将中文识别成英文 英文关键词提取过多,2次 |
4,893 ms |
ERNIE-Bot 4.0 | 100% | 无 | 13,392 ms |
星火 3.5 | 40% | 输出自然语言而不是 json 中文识别成英文 英文未提取关键词讲解 提取过多关键词 json 解析失败,换行未转义 未识别拼写错误 |
5,649 ms |
kimi 通过了所有测试,而且对比其他大模型,他的指令遵从相当优秀。
deepseek 表现也不错,内容审核有点过头,其他大模型都能翻译的内容它提示有风险。另外有一个 json 换行没有处理好。它的指令遵从相比 kimi 弱一些。比如中文内容,我要求不要提取知识点,kimi 做到了,deepseek 则是从译文里提取了知识点。
结论
-
kimi 能力相当强,推理速度快,堪称完美。感觉还要强过之前我排第一名的 ERNIE-BOT 4.0。但是它的频控让人头疼,我是新注册用户,RPM 是 3,即一分钟只能调用 3 次,这个限制使它几乎没有实用价值。。。除此以外没有缺点
-
deepseek 的 500 万免费 token 很香,免费额度用完,按量付费的价格也是超低,自身能力也是很不错。但是,它太慢了。
所以综合性价比和实用性,我依然推荐 GLM-4。如果你要做的应用不追求响应速度,那 deepseek 无疑更合适。
另外,deepseek 还有个针对 coding 训练的 deepseek-code 模型,这个模型更擅长编码,本次没有评测。说到编码能力,我用过通义灵码,也用过智谱的 codegeex,目前用 fitten code,不知道 fitten code 和 deepseek-code 哪个更强,有空会尝试下。
附录
gitee 源码
https://gitee.com/refusea/xiaoying
小英在线体验
https://read.refusea.com/xiaoying.html
测试日志
https://gitee.com/refusea/xiaoying/tree/master/test
deep慢?笑死了,这是我见过响应最快的大模型