标签：大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

EAGLE: 3倍提升大模型推理效率

大语言模型（LLM）被越来越多应用于各种领域。然而，它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则：每个词（token）的生成都需要进行一次前向传播，需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢...