137B参数，5B激活：微软这个专为Copilot定制的新模型，我查了一晚上发现水有点深

137B参数，5B激活。

这个数字，是昨天我翻GitHub Copilot更新日志时，在模型卡那一栏里撞见的。

微软不声不响给Copilot换了个新模型，叫MAI-Code-1-Flash。

我看着这个参数规模，第一反应不是“微软牛掰”，是“这玩意儿能顶用吗？”

GPT-4o的参数传闻超过1.7万亿，Claude 4 Sonnet也大几千亿。1370亿总参数，活跃参数只有50亿，按常理推断，性能应该差一截才对。

可微软在官方博客里说，同时发布的推理模型MAI-Thinking-1，在盲评中赢了Claude Sonnet 4.6。

“盲评中赢了”——没分数，没数据集，没置信度。

这种话，我见过太多了。供应商说自己“优于竞品”，却拿不出第三方测试，十有八九是选择性对比。

我打算自己把它扒干净。

接着我翻到了独立开发者Simon Willison的博客。这哥们儿不仅报道了发布，还把微软的技术论文从头到尾读了一遍，甚至因为之前报道有误，发了一篇更正。

更正的内容，才是关键。

微软一开始对外说，这两个模型“从零训练，使用合法授权的商业清洁数据”。这个词对企业太有诱惑力了，意味着不用担心版权官司。

但Simon在论文第80页找到了真相：训练数据主体是微软自己爬的1.2万亿个网页，过滤后剩7940亿，又混入242亿页的Common Crawl数据。

虽然有成人内容过滤、盗版过滤，甚至用AI检测器过滤了一遍，但这和“合法授权”差了十万八千里。

说白了，还是大爬虫，加点儿后处理。

我看到这儿，心里那点儿“微软终于搞个合规模型”的期待，基本没了。

那回到眼前，这个MAI-Code-1-Flash到底怎么样？

它已经在Copilot里上线了。只要你订阅了Copilot，打开VS Code，可能就在用这个新模型。

微软说它更快更便宜，这我信——活跃参数少，推理成本低，延迟也小。

但快不等于好。没有公开基准测试，没人知道它生成的代码质量行不行。

我去LMSys Chatbot Arena看了一眼，MAI家族还没上榜。也就是说，目前没有任何第三方独立评测。

对于咱们这些写代码的，短期内可以当个盲盒：试试，感受一下补全是不是更丝滑了。但别急着把项目质量押在它身上。

再看MAI-Thinking-1。如果真像微软说的那么强，而且将来开放API，那对咱们小公司技术负责人来说，可能是个省钱机会。

350亿活跃参数，推理成本可能只有GPT-4o的几分之一。如果能力真的不输Claude，那很多AI推理场景的成本就能砍下来。

但是——这个“但是”很沉重——数据版权风险像鞋里的一粒沙子。你用它生成的代码，万一哪天被人告了，说训练数据里有未经授权的代码，你怎么自证清白？

微软的声明也含糊，只说“经过过滤”，没承诺“无风险”。在商业项目里，这不是儿戏。

今晚回家，我打算把VS Code里的Copilot更新到最新版（如果模型已经全量推送），写一晚上代码，看看补全是不是真的变聪明了。

但我不会让核心业务依赖一个没经过评测的“Flash”模型。

MAI-Thinking-1现在只对“早期合作伙伴”开放，咱这种散兵还碰不到。只能等第三方评测出来，再判断值不值得跟进。

有条件的兄弟，如果在团队里负责技术选型，建议盯两点：

数据版权这颗雷，也得同步观察：会不会有哪个被爬的网站或开源社区站出来告微软？一旦出现诉讼，这个模型的商业价值就得打骨折。

事儿还没完，但至少水多深，现在心里有数了。

以上。

既然看到这里了，觉得有点用，点个赞或者转发一下，让更多朋友看到。

我们下次再聊。

老花 / Easton Hua