137B参数,5B激活:微软这个专为Copilot定制的新模型,我查了一晚上发现水有点深

微软发布两款新MAI模型,其中Code-1-Flash已接入Copilot。调查发现性能宣称无第三方验证,训练数据并非真正“合法授权”,存在版权风险。建议先体验,但勿依赖。

137B参数,5B激活:微软这个专为Copilot定制的新模型,我查了一晚上发现水有点深

137B参数,5B激活。

这个数字,是昨天我翻GitHub Copilot更新日志时,在模型卡那一栏里撞见的。

微软不声不响给Copilot换了个新模型,叫MAI-Code-1-Flash。

我看着这个参数规模,第一反应不是“微软牛掰”,是“这玩意儿能顶用吗?”

GPT-4o的参数传闻超过1.7万亿,Claude 4 Sonnet也大几千亿。1370亿总参数,活跃参数只有50亿,按常理推断,性能应该差一截才对。

可微软在官方博客里说,同时发布的推理模型MAI-Thinking-1,在盲评中赢了Claude Sonnet 4.6。

“盲评中赢了”——没分数,没数据集,没置信度。

这种话,我见过太多了。供应商说自己“优于竞品”,却拿不出第三方测试,十有八九是选择性对比。

我打算自己把它扒干净。

接着我翻到了独立开发者Simon Willison的博客。这哥们儿不仅报道了发布,还把微软的技术论文从头到尾读了一遍,甚至因为之前报道有误,发了一篇更正。

更正的内容,才是关键。

微软一开始对外说,这两个模型“从零训练,使用合法授权的商业清洁数据”。这个词对企业太有诱惑力了,意味着不用担心版权官司。

但Simon在论文第80页找到了真相:训练数据主体是微软自己爬的1.2万亿个网页,过滤后剩7940亿,又混入242亿页的Common Crawl数据。

虽然有成人内容过滤、盗版过滤,甚至用AI检测器过滤了一遍,但这和“合法授权”差了十万八千里。

说白了,还是大爬虫,加点儿后处理。

我看到这儿,心里那点儿“微软终于搞个合规模型”的期待,基本没了。

那回到眼前,这个MAI-Code-1-Flash到底怎么样?

它已经在Copilot里上线了。只要你订阅了Copilot,打开VS Code,可能就在用这个新模型。

微软说它更快更便宜,这我信——活跃参数少,推理成本低,延迟也小。

但快不等于好。没有公开基准测试,没人知道它生成的代码质量行不行。

我去LMSys Chatbot Arena看了一眼,MAI家族还没上榜。也就是说,目前没有任何第三方独立评测。

对于咱们这些写代码的,短期内可以当个盲盒:试试,感受一下补全是不是更丝滑了。但别急着把项目质量押在它身上。

再看MAI-Thinking-1。如果真像微软说的那么强,而且将来开放API,那对咱们小公司技术负责人来说,可能是个省钱机会。

350亿活跃参数,推理成本可能只有GPT-4o的几分之一。如果能力真的不输Claude,那很多AI推理场景的成本就能砍下来。

但是——这个“但是”很沉重——数据版权风险像鞋里的一粒沙子。你用它生成的代码,万一哪天被人告了,说训练数据里有未经授权的代码,你怎么自证清白?

微软的声明也含糊,只说“经过过滤”,没承诺“无风险”。在商业项目里,这不是儿戏。

今晚回家,我打算把VS Code里的Copilot更新到最新版(如果模型已经全量推送),写一晚上代码,看看补全是不是真的变聪明了。

但我不会让核心业务依赖一个没经过评测的“Flash”模型。

MAI-Thinking-1现在只对“早期合作伙伴”开放,咱这种散兵还碰不到。只能等第三方评测出来,再判断值不值得跟进。

有条件的兄弟,如果在团队里负责技术选型,建议盯两点:

  1. 盯紧LMSys Chatbot Arena,等MAI家族上榜,看排名。
  2. 等微软公布MAI-Thinking-1的API定价和区域。 在这之前,别急着把现有技术栈换掉。

数据版权这颗雷,也得同步观察:会不会有哪个被爬的网站或开源社区站出来告微软?一旦出现诉讼,这个模型的商业价值就得打骨折。

事儿还没完,但至少水多深,现在心里有数了。

以上。

既然看到这里了,觉得有点用,点个赞或者转发一下,让更多朋友看到。

我们下次再聊。

老花 / Easton Hua