第一个站内站

第一个站内站

蚂蚁开源轻量级推理模型Ring-lite:多项Benchmark登顶,展现Mo


在人工智能领域,轻量级推理模型因其高效性和实用性而备受关注。近日,蚂蚁百灵团队开源了一款名为Ring-lite的轻量级推理模型,该模型在多项推理榜单上取得了SOTA(State-Of-The-Art)效果,再次验证了MoE(Mixture of Experts)架构在推理领域的巨大潜力。

Ring-lite模型以蚂蚁百灵此前开源的MoE架构Ling-lite-1.5为基础,通过独创的C3PO强化学习训练方法,实现了在AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等多项推理榜单上的优异表现。与同参数规模的Dense模型相比,Ring-lite不仅性能卓越,而且激活参数仅2.75B,展现了极高的效率。

Ring-lite的成功并非偶然,其背后蕴含了多项技术创新。首当其冲的是C3PO强化学习训练方法,该方法直击RL训练中回复长度波动导致的优化难题,通过固定每个step传给优化器的总训练token数,有效稳定了训练端的梯度范数和系统吞吐,避免了训练崩溃和reward大幅下跌的问题。

除了C3PO方法外,Ring-lite还探讨了Long-CoT SFT与RL的黄金训练比重。团队从token efficiency角度出发,提出了基于entropy loss来平衡训练效果和样本效率的方案,实现了Long-CoT SFT和RL两阶段训练的优化分配,大大提高了token效率。

在多领域数据联合训练方面,Ring-lite也取得了突破。团队系统验证了混合训练与分阶段训练的优劣边界,通过分阶段训练的方式,有效缓解了跨领域任务冲突问题,实现了数学、代码、科学三重领域的协同增益。

为了构建高质量的推理模型,Ring-lite团队还构建了大规模高质量的长推理链数据和强化学习训练数据集。这些数据集不仅涵盖了数学、编程、自然科学等多个领域,还经过了严格的质量管控和精细化管理,为模型的训练提供了坚实的基础。

在实战测试中,Ring-lite也展现出了强大的实力。团队选取了业界代表性的轻量级推理模型进行对比,结果显示Ring-lite在数学推理、编程竞赛、科学推理等多个榜单上均取得了优异成绩,综合平均得分超过所有对比模型。

此外,团队还测试了Ring-Lite在2025年高考数学和物理题上的表现,结果同样令人瞩目。这些测试不仅验证了Ring-lite的实用性,也为其未来的应用前景奠定了坚实的基础。

展望未来,Ring-lite团队表示将继续深化C3PO方法的探索,实现动态学习节奏和端到端协同优化,让模型像真正的智能体一样,在稳定中成长,在成长中突破,最终成为推动AI能力边界不断拓展的核心引擎。

对于广大开发者而言,Ring-lite的开源无疑是一个巨大的福音。它不仅提供了高性能的轻量级推理模型,还分享了背后的技术创新和数据构建经验,为AI领域的发展注入了新的活力。我们期待Ring-lite在未来能够发挥更大的作用,为人工智能的进步贡献更多的力量。
cache
Processed in 0.014704 Second.