华为Omni-Infer开源项目:超大规模MoE模型推理的新篇章
在人工智能领域,超大规模MoE模型(如DeepSeek)的推理一直是一个挑战,如何做到既快速又稳定,是众多企业和开发者关注的焦点。近日,华为给出了一个令人振奋的答案——全新开源项目Omni-Infer,将推理超大规模MoE背后的架构、技术和代码统统开源,为行业带来了新的曙光。
Omni-Infer项目的开源,对于企业用户而言,无疑是一个巨大的利好。它提供了PD分离部署方案,针对QPM进行了系统级优化,并分享了大规模商用过程中硬件使用的“方法论”。这些实用的功能和优化,将极大地降低企业部署和维护超大规模MoE模型的难度和成本。
对于开发者和开源社区来说,Omni-Infer的开源同样具有重大意义。北京智源研究院副院长兼总工程师林咏华表示,智源团队打造的面向多芯片的FlagScale框架已第一时间接入了Omni-infer,期待后续有更多生态合作。上海人工智能实验室系统平台中心负责人王辉也认为,DeepLlink期待与Omni-infer项目携手,共同繁荣自主软硬件协同开源社区、拓展生态版图。OpenI启智社区运营中心主任余跃同样给出了积极响应,表示将与Omni-Infer项目一起打造基于算力网的开源共创协作生态。
Omni-Infer项目可以拆分为两大核心部分:推理框架和推理加速套件。从框架角度来看,Omni-Infer能与业界主流的开源大模型推理框架(如vLLM)完美兼容,并且其功能还将不断扩展,为昇腾硬件平台上的大模型推理提供更强大的支持。值得一提的是,Omni-Infer与这些主流大模型推理开源框架是解耦的,独立安装,大大降低了软件版本维护的成本。
而Omni-Infer的加速套件,更是其一大亮点。它就像企业级的“调度员”,拥有智能的调度系统,能合理安排任务,支持大规模分布式部署,确保最低的延迟和最快的响应速度。同时,它还是精准的“负载平衡器”,对于不同长度的任务序列,在预填充和解码这两个关键阶段都做了优化,让整个处理过程的吞吐量达到最大,同时保持低延迟。此外,它对混合专家(MoE)模型特别友好,支持多种配置,让“专家团队”高效协作。
在安装和使用方面,Omni-Infer也表现得非常友好。目前仅支持通过Docker镜像方式进行安装,镜像已预先集成所需的CANN及Torch-NPU依赖包,同时内置可直接运行的Omni-Infer与vLLM工具包,开箱即可使用。只需按照文档教程,仅少量代码和步骤,即可完成安装和部署。
除了将关键技术开源出来之外,Omni-Infer还同步进行了更加专业的开源社区建设。在独立的社区仓库中,将社区治理、社区会议、社区活动、生态合作、代码规范、设计文档等社区信息全部开放出来,让开发者能够最直接深入的参与到社区发展中。同时,采用开放的社区治理机制,提供公正透明的讨论与决策机制。
Omni-Infer社区还采取了“主动适配”的社区构筑路径,主动拥抱国内正在逐步成长的人工智能开源项目,让生态真正实现多方共赢。作为长期与业界几大主流开源基金会保持紧密合作关系的社区团队,Omni-infer刚开源的首个活动就将参与OpenInfra基金会在苏州的Meetup,感兴趣的同学可以到现场交流。
总的来说,华为Omni-Infer开源项目的推出,为超大规模MoE模型的推理带来了新的解决方案和思路。它不仅降低了企业部署
上一篇文章 :
小米青年公寓亮相北京,为员工提供高性价比居住选择
下一篇文章 :
京东物流荣膺万国邮联咨询委员会金牌会员