¥0.2 vs ¥204：一张私人比价表揭开国产大模型API价格鸿沟，但表上没写的成本更扎心

下班回家翻V2EX，一条几分钟前刚发的新帖让我停了半秒。

标题很直：“做了个 LLM API 比价表「算盘」，国产模型最低 ¥0.2/百万 token”。

¥0.2？我的第一反应是——是不是少写了个零。 GPT 扣一次任务动辄几毛到几块，国产模型能把价格打到这个程度？

于是我顺着链接点进去，也顺手查了几家官方定价。然后发现，这数字是真实的。但表上没写的东西，比表上的数字更让人不淡定。

这就是我想聊的。

一张表，1000倍差价

帖子作者“hnlszcl611”说，自己做了个中文优先的 LLM API 比价网站，叫「算盘」，收录了 42 个模型、14 家厂商，国产占了 10 家，支持人民币和美元双币种。

我打开 site，最扎眼的就是那组对比：

| 模型 | 输入价格（¥/百万token） | 输出价格（¥/百万token） | | :--- | :--- | :--- | | 通义 Qwen3.5 Flash | 0.2 | 2 | | DeepSeek V4 Flash | 1 | 2 | | GPT-5.5 | 34 | 204 |

即使对 API 成本有心理准备，看到这个依然像被敲了一下——最低价差了 170 倍，输出端 100 倍。如果用月调用一亿 token 输出量来算，通义 Flash 只要 20 元，GPT-5.5 却要 2 万元。

这差价，足够让任何一个在副业、工具站上精打细算的 IT 人停下来重新看一遍成本表。

查了一圈，价格确实没编

我第一反应是怀疑。很多比价站会混用“限时促销价”或“缓存命中价格”来吸引眼球。

于是先查通义千问。阿里云官方大模型服务平台的模型列表里，Qwen3.5 Flash 的大陆最小输入价格确实是 $0.029/百万 token，按当天汇率约合 ¥0.2，输出 $0.287，约 ¥2。这个价格自 2026 年 3 月底之后就没变过。

再查 DeepSeek。因为 DeepSeek V4 今年 4 月下旬刚发布那会儿，价格战打得挺凶。我翻出官方定价页，V4 Flash 输入 $0.14/百万 token，输出 $0.28，和表上的 ¥1/¥2 对得上。

也就是说，至少这两家主力模型，比价表写的价格是真的。作者说每个价格都标了最后核对日期，还附了官方定价页直链，我随机抽了几个，确实能跳到对应页面。

但价格真实，不代表这张表就能照着选模型——后面还有几笔账，得自己算。

第一笔账：价格每天在变，脚本透明吗？

作者说“国产几家每天脚本自动核”，但没公开脚本逻辑，也没有 Git 仓库。

我当然理解爬虫不好开源，可对于咱们这些想依赖它做决策的人来说，就少了一份信任凭证。假如某家厂商半夜调价——这在 AI 行业一点不稀奇——表上数字可能就是昨天的旧闻。

所以使用比价表，只能当“方向性参考”，决定下单前必须再去官方页看一眼，别指望一劳永逸。

第二笔账：低价不等于能用

价格差 100 倍，可质量差多少？表上只字未提。

我查了一圈，没找到针对国产模型在编程辅助、文档翻译等具体任务上的统一基准测试。这些模型在 HumanEval 或 WMT 上的成绩，大多没有公开横向对比。

翻译这种任务，便宜模型可能跑出来像模像样，但一遇到专业术语或长难句，就可能胡乱发挥。编程辅助更是，便宜的模型生成的代码可能多出很多调试时间，甚至需要人工重写。

所以直接用低价替换，好比换了个刹车便宜的汽修店——省下来的钱，可能得贴到别处。

第三笔账：缓存价格≠常态价格

比价表里标了缓存价格，比如 DeepSeek 缓存命中只要原价的十分之一，看上去很美。

但实际情况是，缓存命中率高度依赖你的提示工程策略。如果你的应用每次都传不同的上下文，命中率可能连 10% 都不到，绝大多数请求还是按全价收费。

表上那个诱人的“缓存价”，只存在于你精心设计之后的理想状态里。如果你刚接触 API 开发，甚至都不知道怎么开缓存，那这笔折扣基本吃不到。

第四笔账：黑盒“省钱路由”，可能让你多花钱

「算盘」还带了一个“省钱路由”功能，说是能根据价格、延迟自动把请求切到不同模型。

可这路由算法是啥？怎么判断当前哪个模型“最合适”？失败了会不会吞掉请求？作者没说，也没提供任何对比数据。

对于咱们这种副业项目，引入一个不透明的路由中间件，本身就是风险。请求多走一层，延迟增加至少几十毫秒，如果路由逻辑有 bug，可能把本来能跑通的任务扔到一个更便宜的、但压根不擅长的模型上，导致输出质量暴跌，最终你还是得人工挑。

所以这功能，现阶段更像个 marketing 噱头，不值得押注生产环境。

谁真的能从这个差价里赚到钱？

我没找到任何公开案例，说谁靠切到便宜模型省出一笔可观的净利润，也没看到用「算盘」当成副业工具直接赚钱的人。

不过从原理上推，如果你正用 AI 做大批量、质量波动可以接受的活——比如自动翻译、内容清洗、摘要生成——试着换一个国产低价模型，可能马上看到成本下降。

我就用最简单的翻译副业做个脑补：假设每月需要输出 1000 万 token，用通义 Flash 只需 ¥20；用 GPT-5.5 就要 ¥2040。差价 ¥2020，差不多够一张周末去苏州的火车票和一顿好的。

但前提是，翻译质量过得去，不出现严重错译，也不需要额外雇佣校对。而这个前提，目前没有任何测试报告支持。

咱们这些人，该怎么对待这张表？

对于像我这样试错空间小、本金有限的老程序员，我不会立刻把自己副业的 AI 依赖全切过去。

更容易的做法是：先挑一两个最核心的小功能，用几块钱分别在国产模型和海外模型上跑同一批真实数据，人肉对比结果。如果质量下降在可接受范围，再考虑小规模迁移。

同时必须准备一把备用钥匙——一旦国产模型涨价或服务不稳定，要有随时切回海外模型的预案，哪怕贵一点。毕竟很多 AI 能力是服务的心脏，心脏停跳了，省再多钱也没意义。

如果你连 API 控制台都还没打开过，就先别想着来比价。

顺便提醒：使用国内厂商 API 时，默认就有内容审核，别拿去生成任何擦边的东西，轻则机器审核不通过，重则封号。海外用户数据跨境那些合规问题，就更复杂了，得单独研究。

算盘本身，是一个副业样本

抛开内容，这个工具本身倒值得看一眼。

一个无名程序员，为了解决自己挑花眼的问题，用网页脚本攒了个专用比价表，免费放出来。技术栈不复杂，成本几乎只有域名和服务器，但精准切中了一批人的痛点。

当然，它到底有没有帮到人，还没有数据。不过这种“用代码服务同类，顺便立个帆”的思路，对咱们这些搞技术的人来说，比看一百篇泛流量教程都管用。

同类比价站海外有不少，比如 costgoat、morphllm 这些，但专门面向中文市场、标人民币、还带记账小工具的，暂时就看见这一个。靠它直接赚钱不现实，但聚个圈子、接点私单倒是有可能。只是那得花时间运营，不像代码，写完了就能跑。

以上就是我查这一圈下来的判断：价格鸿沟真实存在，但比价表只能当引子，真正省钱的地方，在你自己测试、自己算账、自己控制缓存和 fallback 的那几步里。

如果你也想试试，别上来就充钱。花一个晚上，先把两个模型的 free trial 额度跑空，记下三件事：

实际扣费跟表上差多少；
同一个 prompt 跑五次，结果波动大不大；
如果有付费用户，他们能接受这种波动吗？这三个答案有了，远比任何比价表都值钱。

以上。

既然看到这里了，觉得有点用的话，点个赞或者转发一下，让更多朋友看到。

我们下次再聊。

老花 / Easton Hua