下班回家翻V2EX,一条几分钟前刚发的新帖让我停了半秒。
标题很直:“做了个 LLM API 比价表「算盘」,国产模型最低 ¥0.2/百万 token”。
¥0.2?我的第一反应是——是不是少写了个零。 GPT 扣一次任务动辄几毛到几块,国产模型能把价格打到这个程度?
于是我顺着链接点进去,也顺手查了几家官方定价。然后发现,这数字是真实的。但表上没写的东西,比表上的数字更让人不淡定。
这就是我想聊的。
一张表,1000倍差价
帖子作者“hnlszcl611”说,自己做了个中文优先的 LLM API 比价网站,叫「算盘」,收录了 42 个模型、14 家厂商,国产占了 10 家,支持人民币和美元双币种。
我打开 site,最扎眼的就是那组对比:
| 模型 | 输入价格(¥/百万token) | 输出价格(¥/百万token) | | :--- | :--- | :--- | | 通义 Qwen3.5 Flash | 0.2 | 2 | | DeepSeek V4 Flash | 1 | 2 | | GPT-5.5 | 34 | 204 |
即使对 API 成本有心理准备,看到这个依然像被敲了一下——最低价差了 170 倍,输出端 100 倍。如果用月调用一亿 token 输出量来算,通义 Flash 只要 20 元,GPT-5.5 却要 2 万元。
这差价,足够让任何一个在副业、工具站上精打细算的 IT 人停下来重新看一遍成本表。
查了一圈,价格确实没编
我第一反应是怀疑。很多比价站会混用“限时促销价”或“缓存命中价格”来吸引眼球。
于是先查通义千问。阿里云官方大模型服务平台的模型列表里,Qwen3.5 Flash 的大陆最小输入价格确实是 $0.029/百万 token,按当天汇率约合 ¥0.2,输出 $0.287,约 ¥2。这个价格自 2026 年 3 月底之后就没变过。
再查 DeepSeek。因为 DeepSeek V4 今年 4 月下旬刚发布那会儿,价格战打得挺凶。我翻出官方定价页,V4 Flash 输入 $0.14/百万 token,输出 $0.28,和表上的 ¥1/¥2 对得上。
也就是说,至少这两家主力模型,比价表写的价格是真的。作者说每个价格都标了最后核对日期,还附了官方定价页直链,我随机抽了几个,确实能跳到对应页面。
但价格真实,不代表这张表就能照着选模型——后面还有几笔账,得自己算。
第一笔账:价格每天在变,脚本透明吗?
作者说“国产几家每天脚本自动核”,但没公开脚本逻辑,也没有 Git 仓库。
我当然理解爬虫不好开源,可对于咱们这些想依赖它做决策的人来说,就少了一份信任凭证。假如某家厂商半夜调价——这在 AI 行业一点不稀奇——表上数字可能就是昨天的旧闻。
所以使用比价表,只能当“方向性参考”,决定下单前必须再去官方页看一眼,别指望一劳永逸。
第二笔账:低价不等于能用
价格差 100 倍,可质量差多少?表上只字未提。
我查了一圈,没找到针对国产模型在编程辅助、文档翻译等具体任务上的统一基准测试。这些模型在 HumanEval 或 WMT 上的成绩,大多没有公开横向对比。
翻译这种任务,便宜模型可能跑出来像模像样,但一遇到专业术语或长难句,就可能胡乱发挥。编程辅助更是,便宜的模型生成的代码可能多出很多调试时间,甚至需要人工重写。
所以直接用低价替换,好比换了个刹车便宜的汽修店——省下来的钱,可能得贴到别处。
第三笔账:缓存价格≠常态价格
比价表里标了缓存价格,比如 DeepSeek 缓存命中只要原价的十分之一,看上去很美。
但实际情况是,缓存命中率高度依赖你的提示工程策略。如果你的应用每次都传不同的上下文,命中率可能连 10% 都不到,绝大多数请求还是按全价收费。
表上那个诱人的“缓存价”,只存在于你精心设计之后的理想状态里。如果你刚接触 API 开发,甚至都不知道怎么开缓存,那这笔折扣基本吃不到。
第四笔账:黑盒“省钱路由”,可能让你多花钱
「算盘」还带了一个“省钱路由”功能,说是能根据价格、延迟自动把请求切到不同模型。
可这路由算法是啥?怎么判断当前哪个模型“最合适”?失败了会不会吞掉请求?作者没说,也没提供任何对比数据。
对于咱们这种副业项目,引入一个不透明的路由中间件,本身就是风险。请求多走一层,延迟增加至少几十毫秒,如果路由逻辑有 bug,可能把本来能跑通的任务扔到一个更便宜的、但压根不擅长的模型上,导致输出质量暴跌,最终你还是得人工挑。
所以这功能,现阶段更像个 marketing 噱头,不值得押注生产环境。
谁真的能从这个差价里赚到钱?
我没找到任何公开案例,说谁靠切到便宜模型省出一笔可观的净利润,也没看到用「算盘」当成副业工具直接赚钱的人。
不过从原理上推,如果你正用 AI 做大批量、质量波动可以接受的活——比如自动翻译、内容清洗、摘要生成——试着换一个国产低价模型,可能马上看到成本下降。
我就用最简单的翻译副业做个脑补:假设每月需要输出 1000 万 token,用通义 Flash 只需 ¥20;用 GPT-5.5 就要 ¥2040。差价 ¥2020,差不多够一张周末去苏州的火车票和一顿好的。
但前提是,翻译质量过得去,不出现严重错译,也不需要额外雇佣校对。而这个前提,目前没有任何测试报告支持。
咱们这些人,该怎么对待这张表?
对于像我这样试错空间小、本金有限的老程序员,我不会立刻把自己副业的 AI 依赖全切过去。
更容易的做法是:先挑一两个最核心的小功能,用几块钱分别在国产模型和海外模型上跑同一批真实数据,人肉对比结果。如果质量下降在可接受范围,再考虑小规模迁移。
同时必须准备一把备用钥匙——一旦国产模型涨价或服务不稳定,要有随时切回海外模型的预案,哪怕贵一点。毕竟很多 AI 能力是服务的心脏,心脏停跳了,省再多钱也没意义。
如果你连 API 控制台都还没打开过,就先别想着来比价。
顺便提醒:使用国内厂商 API 时,默认就有内容审核,别拿去生成任何擦边的东西,轻则机器审核不通过,重则封号。海外用户数据跨境那些合规问题,就更复杂了,得单独研究。
算盘本身,是一个副业样本
抛开内容,这个工具本身倒值得看一眼。
一个无名程序员,为了解决自己挑花眼的问题,用网页脚本攒了个专用比价表,免费放出来。技术栈不复杂,成本几乎只有域名和服务器,但精准切中了一批人的痛点。
当然,它到底有没有帮到人,还没有数据。不过这种“用代码服务同类,顺便立个帆”的思路,对咱们这些搞技术的人来说,比看一百篇泛流量教程都管用。
同类比价站海外有不少,比如 costgoat、morphllm 这些,但专门面向中文市场、标人民币、还带记账小工具的,暂时就看见这一个。靠它直接赚钱不现实,但聚个圈子、接点私单倒是有可能。只是那得花时间运营,不像代码,写完了就能跑。
以上就是我查这一圈下来的判断:价格鸿沟真实存在,但比价表只能当引子,真正省钱的地方,在你自己测试、自己算账、自己控制缓存和 fallback 的那几步里。
如果你也想试试,别上来就充钱。花一个晚上,先把两个模型的 free trial 额度跑空,记下三件事:
- 实际扣费跟表上差多少;
- 同一个 prompt 跑五次,结果波动大不大;
- 如果有付费用户,他们能接受这种波动吗? 这三个答案有了,远比任何比价表都值钱。
以上。
既然看到这里了,觉得有点用的话,点个赞或者转发一下,让更多朋友看到。
我们下次再聊。
老花 / Easton Hua