推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

2025-02-12 20:21:28 自媒体 23℃ 0

三言科技10月20日消息，据报道，近日，奇瑞董事长尹同跃和华为车BU董事长余承东共同向智界R7车主交车。在交车现场，尹同跃称，“我干汽车正好40年，没见过华为这么高的要求。”“在推出S7的时候，我们也没有想到和华为合作对质量的要求这么难，满足华为对质量的要求会这么辛苦，所以当时是低估了华为合作的难度。”尹同跃还...

豆包大模型团队投稿
量子位 | 公众号 QbitAI

字节出了个全新架构，把推理成本给狠狠地打了下去！

有多狠？

速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

这个全新的稀疏模型架构叫做UltraMem，有效地了目前主流的MoE架构和PKM架构所存在的局限性。

例如MoE在做推理时，较小的b ch size会全部专家，导致访存急剧上升，推理延迟增加；而PKM虽然减少了开销，但效果较差且扩展能力有限。

实验结果表明，训练规模达2000 万value的UltraMem模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模value或expert开辟了新路径。

这项研究目前已经被ICLR 2025接收。

那么UltraMem架构具体是如何做到这点的呢？我们继续往下看。

关键词：华为架构推理

上一篇

经典来了！曝初代《使命召唤现代战争2》将登XGP

下一篇

中芯国际2024年营收创历史新高，预计业内下半年将现降价抢订单