100 万 token 上下文窗口,今天起在 Copilot Pro+ 上线。
刷到 GitHub Changelog 这条更新的时候,我第一反应居然不是兴奋,而是赶紧去翻三天前另一条公告——计费模式改了。
6 月 1 号,Copilot 从固定月费切换成 AI Credits。聊天、CLI、Agent 任务,全开始按 token 扣费。当时觉得也就是换了个计费单位,直到看见“100 万上下文”这个数,才开始后背发凉。
你能一次性塞进一整个代码仓库,让 AI 跨文件给你理逻辑、重构、写文档。听起来很爽。但爽完以后,每提一个问题,背后可能燃烧掉数万甚至数十万 token——而且账单是黑箱,我用完之前根本看不见烧了多少。
我去翻了一圈,没找到任何实测数据。GitHub 没公布百万 token 上下文的定价示例,没给出“重构一个中型项目大概烧多少 credits”的参考。技术社区里也还没有人出 benchmark。
这就很别扭了。功能上线了,宣传语说能“理解整个代码库”,但你不知道用一次要多少钱。就好像有人告诉你,这辆车能跑 300 迈,但没仪表盘。
另一个变数叫“可配置推理级别”。Changelog 里轻飘飘一句“开发者可以在速度与深度间平衡”,具体怎么平衡,没说。是分三档?五档?低推理会不会给出带坑的代码,高推理会不会又慢又贵?全不知道。
对于每天要写代码的咱们来说,这事没那么飘忽。你想想,你正改一个漏洞,手快选了个低推理,它给了个看着对的方案,但埋了个新坑。或者你保险起见选了高推理,结果三分钟才吐答案,你在屏幕前面干等,还烧掉双倍 credits。
说实话,以我现在的状况——一个人扛公司技术,时间紧、钱也紧——我不敢直接开 Pro+ 上新功能猛冲。万一月底账单翻倍,老板的脸色比代码还难看。
但全放着不用,又怕团队效率被落下。所以我的路子是:先拿自己电脑上的开源项目测,不花公司的钱。
动作很简单,三件事,今晚就能跑:
- 用现有的 Copilot 订阅(或者申请 Pro+ 试用),拉一个大型开源仓库,比如 VS Code 源码或者 Kubernetes 某个组件。打开 Copilot Chat,问一个需要跨文件回答的问题,看它能不能给出完整引用,同时注意响应时间。
- 如果能看见 token 消耗,记下来。同一个问题,先把上下文窗口主动缩小再问一次,比一比消耗差了多少。
- 连着问三四个类似问题,估算一下日常如果全程开百万上下文,一天得烧多少 credits。要是比预期高出一大截,就先缩回原来的用法。 这件事不花钱(试用够了),时间最多两小时。适合咱们这种自己还能写代码的技术人,不适合纯管理或者完全不碰代码的兄弟。
试完之后,要是发现一个简单跨文件查询就烧掉过去半天用的 credits,答案还不怎么靠谱,那这功能现阶段就不是给咱们用的。至少等 GitHub 公布定价细节,或者第三方做完评测再看。
另外,推理级别出来后,可以先把低推理当“草稿模式”,高推理留给 merge 前的最后检查,这样控制成本。
回到开头那个后背发凉。百万 token 这扇门打开了,但门背后的路没灯。咱们不是不用,是不能闭着眼用。
等社区里有人拿真实项目跑出基准数据、分享出 token 消耗表的那天,再决定要不要长期上量。在此之前,就只拿它当个实验室功能,测一测,摸清楚脾气,也摸清楚价格。
以上。
我是老花,一个跌过坑、还在小公司打工维生的十年老程序员。这里不教成功,只记录我追过的信号、踩过的坑,和我拆出来的一点路。
既然看到这里了,觉得有点用的话,点个赞或者转发一下,让更多朋友看到。我们下次再聊。
老花 / Easton Hua