12B参数,2.5B激活:JetBrains掏出的这个开源模型,可能让本地Copilot离我们更近一步

JetBrains发布12B MoE开源代码模型Mellum2,每次推理激活2.5B,速度提升2倍,可能实现本地低延迟代码补全。但缺乏基准测试和集成细节,普通开发者宜观察,有GPU者可等量化版测试。

昨天下午泡了杯信阳毛尖,准备摸会鱼,刷到Hugging Face上一篇博客。JetBrains,就是做IntelliJ IDEA那家,悄没声地发布了一个新模型Mellum2。我扫了一眼参数:12B,混合专家(MoE),每次推理只激活2.5B。

我当时就停住了。

不是因为12B大——现在模型参数膨胀得厉害,12B不算什么。是“激活2.5B”这个数让我多看了几眼。

简单讲,MoE架构就像大公司里有很多部门,但平时只抽调几个人干活,其他人休眠。这样模型整体容量大,但运行成本低。用在代码补全这种对延迟极度敏感的场景,逻辑很顺:你敲一行代码,等个200毫秒还行,等2秒就没人用了。2.5B的激活量,理论上在普通游戏本上都能跑出可用的速度。

我翻了翻JetBrains之前的论文。他们其实已经在IDE里部署了一个4B的小模型Mellum,专门做代码补全。在RepoBench这个测评仓库级补全的基准上,Mellum 4B在Python上拿过0.26左右的精确匹配率(这个指标就是补全的代码和真实代码一模一样的比例,0.2-0.3已经算不错),Java上0.28左右。不是顶尖,但考虑到模型只有4B,而且深度集成在IDE里,能用项目索引、跨文件上下文,实际体验可能比分数看起来要好。

那这个Mellum2呢?JetBrains官方博客说它“最初源于代码补全任务,扩展至更广泛的自然语言和软件工程任务”,并且强调“高吞吐量编码功能”和“2倍以上推理速度”。技术报告在arXiv上(编号2605.31268),模型权重按Apache 2.0开源。

这就有意思了。

咱们这些用JetBrains IDE的打工人——包括我自己,公司项目是PyCharm跑着,个人捣鼓点东西用IntelliJ——对“代码补全延迟”这五个字应该都有肌肉记忆。网络差一点,Copilot的补全就能让你等得想摔键盘。如果Mellum2能本地跑,又快,还深度集成在IDE里,不用传代码到云端,对很多在意代码隐私的小公司来说,直接少了个头疼的事儿。

但你先别激动。我现在要泼冷水——或者说不叫冷水,是目前已知信息里的几个大窟窿。

第一,性能到底怎么样?你没看错,现在没有一个公开的、第三方可以验证的基准测试数据。HumanEval、MBPP、LiveCodeBench……这些标准代码测评,Mellum2的分数一个也没放出来。JetBrains说“2倍速度”,但没说跟谁比,在什么硬件上。是自己跟自己前代比,还是跟CodeLlama比?是A100上跑,还是一块3060上跑?同样,补全的准确率、拒绝率、长程补全的效果——一概没提。这就像一个厨师说自己刀工快,但不告诉你切的是豆腐还是骨头。

第二,怎么集成?JetBrains只说了“将来可能用于IDE”,但没给时间表。是2026.3版本?还是明年的2027.1?是作为AI Assistant的增强,还是免费的基础补全?需不需要JetBrains的AI服务订阅?如果集成了,会像Copilot一样收月费吗?如果本地模型免费,但联网的高级功能收费,这个边界在哪里?全都不清楚。

第三,许可和生态。Apache 2.0是好消息,意味着你可以自己部署,甚至可以商用。但现在模型权重刚放出来,没有GGUF量化版,没有llama.cpp支持,也没有方便的olech(一键运行包)。你想试,得先有一块至少16GB显存的GPU,自己搭transformers环境,折腾半天可能连Ollama的魔改版本都没人出。对于大多数还在用8GB显存甚至核显的兄弟来说,现在去碰就是浪费时间。

所以,Mellum2是个信号,不是个工具。

这个信号指向一个方向:IDE厂商亲自下场做模型,而且是朝着“大参数、低激活、高吞吐”这个组合走。如果他们跑通了,以后你写代码时,一个轻量的、懂你整个项目结构的模型在本地飞快补全,比Copilot省钱,比GitHub的那个快,还不用传代码。这在以前是不敢想的。

但这个信号还有另一面。如果JetBrains将来把Mellum2做成付费服务,甚至只在高价订阅里开放,那它就变成了一个新的锁定工具。你习惯了它的补全风格,习惯了本地模型对项目的深度理解,换别的IDE便宜,但效率瞬间下来,你可能就懒得换了。这和微软把Copilot绑在VS Code里是一个道理。

站在我自己的立场——一个30多岁的IT技术经理,管着公司里几个项目,自己也写代码——我倾向于对这个信号保持关注,但不急着下场。因为:

一,我不确定它能在我那台五年前的笔记本上跑。即便有量化版,4GB显存能不能带起来2.5B激活,未可知。如果不能,我就要加设备,那就是钱和时间,我得看到明确回报才动。 二,团队里用的IDE版本、插件设置都是稳定好的。换一个补全引擎,如果体验不好,兄弟们会骂,还影响进度。冒这个风险不值得。 三,Copilot虽然慢点,但它稳定,生态全,能接受。换的成本高于收益。

当然,如果你是个学生,或者刚入行的新人,手头正好有张中端显卡,喜欢折腾,那可以去Hugging Face上蹲一个GGUF量化版。等它出来,花一个晚上,用你日常写的代码试试补全速度和准确度,和CodeLlama-7B比较一下。如果延迟真的低很多,补全质量还行,那你可能发现了一个免费的、本地的Copilot替代品,这对你是实打实的省钱和学习加分。但我还是要加一句:如果量化版出来的第一个测试结果,HumanEval pass@1掉到0.3以下(你对比一下CodeLlama-7B通常有0.4-0.5),那就别继续投时间了,等下一代。

接下来的信号,我会盯这三个:

  1. 第三方评测。哪个靠谱的独立团队在HumanEval或类似的代码基准上跑了Mellum2,给出了和主流开源代码模型(比如Qwen2.5-Coder-7B、DeepSeek-Coder-6.7B)的横向对比。看到了,心里就有数了。
  2. 量化版本。Hugging Face上出现Mellum2-GGUF,且有人在ollama或llama.cpp上成功跑起来,并且分享了真实的补全延迟和占用。这说明模型真正到了可“家用”的程度。
  3. JetBrains的IDE更新日志。如果2026.3或2026.4的EAP版本里出现“基于本地模型的代码补全(实验性)”,那就是集成开始的信号。那时候我会注册一个账号去免费试用,然后告诉你结果。

有一点我提一下,这事和之前英伟达推AI PC、本地推理能力下沉是一脉相承的。也许一年后,我们真的可以在自己的电脑上免费、低延迟地享受高级AI编码辅助。这比每个月给微软稳定缴钱,要让我踏实点。

以上。

我是老花,一个30多岁、还在一线摸爬滚打的小公司IT技术经理。这里不教成功,只记录我追过的信号、踩过的坑,和我暂时想明白的一点判断。觉得有启发,点个赞或者转给同样被代码补全卡到没脾气的兄弟。

我们下次再聊。

老花 / Easton Hua