推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025

三言科技10月20日消息,据报道,近日,奇瑞董事长尹同跃和华为车BU董事长余承东共同向智界R7车主交车。在交车现场,尹同跃称,“我干汽车正好40年,没见过华为这么高的要求。”“在推出S7的时候,我们也没有想到和华为合作对质量的要求这么难,满足华为对质量的要求会这么辛苦,所以当时是低估了华为合作的难度。”尹同跃还...

豆包大模型团队 投稿
量子位 | 公众号 QbitAI

字节出了个全新架构,把推理成本给狠狠地打了下去!

有多狠?

速度相比MoE架构提升2-6倍,推理成本最高可降低83%

推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025

这个全新的稀疏模型架构叫做UltraMem,有效地 了目前主流的MoE架构和PKM架构所存在的局限性。

例如MoE在做推理时,较小的b ch size会 全部专家,导致访存急剧上升,推理延迟增加;而PKM虽然减少了开销,但效果较差且扩展能力有限。

实验结果表明,训练规模达2000 万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。

这项研究目前已经被ICLR 2025接收。

那么UltraMem架构具体是如何做到这点的呢?我们继续往下看。

关键词:华为架构推理