

2026年春节前夜,MiniMax精良上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”张开密集发布与营销攻势,这款定位为“原生Agent出产级模子”的产物,精良加入这场被业界称为“AI诸神之战”的竞争。
尽管有着编程、器用调用、办公等出产力场景寰球SOTA得益,这家在本钱商场备受瞩指标公司却念念抛开参数限制与模子榜单的简短比拼,而是在科技圈大开另一种叙事:再行界说Agent2.0时期。
10B激活参数跑出旗舰得益
在编程才气方面,M2.5在泰斗榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显赫擢升;在Multi-SWE-Bench等多道话复杂环境中卓越Opus 4.6,达到了行业最佳的水平。更蹙迫的是,模子展现出“原生Spec才气”——在编码前主动拆解架构与功能狡计,更接近真的架构师的责任格局。
器用调用和搜索才气方面,模子无意自动科罚复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次铺张得回了更优的效劳,相较于上一代模子说明擢升20% ,达到了行业顶尖水平。

办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中得回了显赫的才气擢升,在测评框架GDPval-MM与主流模子的对比得回了 59.0%的平均胜率。
极致推理重构Agent经济
性能除外,M2.5的另一中枢亮点在于极致的推理速率与成本截至。M2.5-lightning版块支握100 TPS以上输出速率,是主流模子的2倍傍边;输入价钱约0.3好意思元/百万Token,输出约2.4好意思元/百万Token。按每秒输出100 Token谈判,开元棋牌app相接脱手一小时成本约1好意思元;若按50 Token谈判,成本约0.3好意思元。
这意味着1万好意思元表面上可支握4个Agent相接责任一年。MiniMax方面合计,当性能与成本不再组成控制,Agent限制化部署的经济模子将发生根柢变化。
在Vibecoding(氛围编程)越来越火确当下,M2.5的极致性价比可谓告成界说了真的宇宙责任王者。
草创Agent RL撑握高速进化
{jz:field.toptypename/}往常108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified得益从69.4擢升至80.2,逾越弧线在同行中尤为陡峻。团队将这一跃迁归因于大限制Agent强化学习(RL Scaling)。
其自研Forge框架通过解耦锻练引擎与Agent,扫尾对任性Agent脚手架和器用的泛化优化,并通过异举止度与树状统一计策扫尾约40倍锻练加快。同期,在算法层面采用CISPO优化与历程奖励机制,缓解长崎岖文场景中的信用分派问题,并将“任务真的耗时”纳入奖励函数,在效劳与反馈速率之间得回均衡。

M2.5已于2月12日在 MiniMax Agent上线,并于13日寰球开源支握土产货化部署。不到一天,来自全宇宙的用户还是在MiniMax Agent上构建了1万多个行家,且仍在快速增长。
MiniMax示意,但愿在握续擢升模子才气的同期,构建一个可握续膨胀的Agent生态-Agent Universe。当模子才气、泛化性和成本齐不再是瓶颈,Agent渗入到责任和生存的各个边际——从编程、办公到创作、文娱,大幅促进Agentic旁边的进一步发展。