12B参数，2.5B激活：JetBrains掏出的这个开源模型，可能让本地Copilot离我们更近一步

昨天下午泡了杯信阳毛尖，准备摸会鱼，刷到Hugging Face上一篇博客。JetBrains，就是做IntelliJ IDEA那家，悄没声地发布了一个新模型Mellum2。我扫了一眼参数：12B，混合专家（MoE），每次推理只激活2.5B。

我当时就停住了。

不是因为12B大——现在模型参数膨胀得厉害，12B不算什么。是“激活2.5B”这个数让我多看了几眼。

简单讲，MoE架构就像大公司里有很多部门，但平时只抽调几个人干活，其他人休眠。这样模型整体容量大，但运行成本低。用在代码补全这种对延迟极度敏感的场景，逻辑很顺：你敲一行代码，等个200毫秒还行，等2秒就没人用了。2.5B的激活量，理论上在普通游戏本上都能跑出可用的速度。

我翻了翻JetBrains之前的论文。他们其实已经在IDE里部署了一个4B的小模型Mellum，专门做代码补全。在RepoBench这个测评仓库级补全的基准上，Mellum 4B在Python上拿过0.26左右的精确匹配率（这个指标就是补全的代码和真实代码一模一样的比例，0.2-0.3已经算不错），Java上0.28左右。不是顶尖，但考虑到模型只有4B，而且深度集成在IDE里，能用项目索引、跨文件上下文，实际体验可能比分数看起来要好。

那这个Mellum2呢？JetBrains官方博客说它“最初源于代码补全任务，扩展至更广泛的自然语言和软件工程任务”，并且强调“高吞吐量编码功能”和“2倍以上推理速度”。技术报告在arXiv上（编号2605.31268），模型权重按Apache 2.0开源。

这就有意思了。

咱们这些用JetBrains IDE的打工人——包括我自己，公司项目是PyCharm跑着，个人捣鼓点东西用IntelliJ——对“代码补全延迟”这五个字应该都有肌肉记忆。网络差一点，Copilot的补全就能让你等得想摔键盘。如果Mellum2能本地跑，又快，还深度集成在IDE里，不用传代码到云端，对很多在意代码隐私的小公司来说，直接少了个头疼的事儿。

但你先别激动。我现在要泼冷水——或者说不叫冷水，是目前已知信息里的几个大窟窿。

第一，性能到底怎么样？你没看错，现在没有一个公开的、第三方可以验证的基准测试数据。HumanEval、MBPP、LiveCodeBench……这些标准代码测评，Mellum2的分数一个也没放出来。JetBrains说“2倍速度”，但没说跟谁比，在什么硬件上。是自己跟自己前代比，还是跟CodeLlama比？是A100上跑，还是一块3060上跑？同样，补全的准确率、拒绝率、长程补全的效果——一概没提。这就像一个厨师说自己刀工快，但不告诉你切的是豆腐还是骨头。

第二，怎么集成？JetBrains只说了“将来可能用于IDE”，但没给时间表。是2026.3版本？还是明年的2027.1？是作为AI Assistant的增强，还是免费的基础补全？需不需要JetBrains的AI服务订阅？如果集成了，会像Copilot一样收月费吗？如果本地模型免费，但联网的高级功能收费，这个边界在哪里？全都不清楚。

第三，许可和生态。Apache 2.0是好消息，意味着你可以自己部署，甚至可以商用。但现在模型权重刚放出来，没有GGUF量化版，没有llama.cpp支持，也没有方便的olech（一键运行包）。你想试，得先有一块至少16GB显存的GPU，自己搭transformers环境，折腾半天可能连Ollama的魔改版本都没人出。对于大多数还在用8GB显存甚至核显的兄弟来说，现在去碰就是浪费时间。

所以，Mellum2是个信号，不是个工具。

这个信号指向一个方向：IDE厂商亲自下场做模型，而且是朝着“大参数、低激活、高吞吐”这个组合走。如果他们跑通了，以后你写代码时，一个轻量的、懂你整个项目结构的模型在本地飞快补全，比Copilot省钱，比GitHub的那个快，还不用传代码。这在以前是不敢想的。

但这个信号还有另一面。如果JetBrains将来把Mellum2做成付费服务，甚至只在高价订阅里开放，那它就变成了一个新的锁定工具。你习惯了它的补全风格，习惯了本地模型对项目的深度理解，换别的IDE便宜，但效率瞬间下来，你可能就懒得换了。这和微软把Copilot绑在VS Code里是一个道理。

站在我自己的立场——一个30多岁的IT技术经理，管着公司里几个项目，自己也写代码——我倾向于对这个信号保持关注，但不急着下场。因为：

一，我不确定它能在我那台五年前的笔记本上跑。即便有量化版，4GB显存能不能带起来2.5B激活，未可知。如果不能，我就要加设备，那就是钱和时间，我得看到明确回报才动。二，团队里用的IDE版本、插件设置都是稳定好的。换一个补全引擎，如果体验不好，兄弟们会骂，还影响进度。冒这个风险不值得。三，Copilot虽然慢点，但它稳定，生态全，能接受。换的成本高于收益。

当然，如果你是个学生，或者刚入行的新人，手头正好有张中端显卡，喜欢折腾，那可以去Hugging Face上蹲一个GGUF量化版。等它出来，花一个晚上，用你日常写的代码试试补全速度和准确度，和CodeLlama-7B比较一下。如果延迟真的低很多，补全质量还行，那你可能发现了一个免费的、本地的Copilot替代品，这对你是实打实的省钱和学习加分。但我还是要加一句：如果量化版出来的第一个测试结果，HumanEval pass@1掉到0.3以下（你对比一下CodeLlama-7B通常有0.4-0.5），那就别继续投时间了，等下一代。

接下来的信号，我会盯这三个：

第三方评测。哪个靠谱的独立团队在HumanEval或类似的代码基准上跑了Mellum2，给出了和主流开源代码模型（比如Qwen2.5-Coder-7B、DeepSeek-Coder-6.7B）的横向对比。看到了，心里就有数了。
量化版本。Hugging Face上出现Mellum2-GGUF，且有人在ollama或llama.cpp上成功跑起来，并且分享了真实的补全延迟和占用。这说明模型真正到了可“家用”的程度。
JetBrains的IDE更新日志。如果2026.3或2026.4的EAP版本里出现“基于本地模型的代码补全（实验性）”，那就是集成开始的信号。那时候我会注册一个账号去免费试用，然后告诉你结果。

有一点我提一下，这事和之前英伟达推AI PC、本地推理能力下沉是一脉相承的。也许一年后，我们真的可以在自己的电脑上免费、低延迟地享受高级AI编码辅助。这比每个月给微软稳定缴钱，要让我踏实点。

以上。

我是老花，一个30多岁、还在一线摸爬滚打的小公司IT技术经理。这里不教成功，只记录我追过的信号、踩过的坑，和我暂时想明白的一点判断。觉得有启发，点个赞或者转给同样被代码补全卡到没脾气的兄弟。

我们下次再聊。

老花 / Easton Hua