昨世界午,DeepSeek 宣布了一篇新论文,提出了一种改良版的留神力机制 NSA;加上另有开创人兼 CEO 梁文锋亲身参加,一时之间吸引眼球有数,参阅报道《刚!DeepSeek 梁文锋亲身挂名,公然新留神力架构 NSA》。但实在就在统一天,月之暗面也宣布了一篇主题相似的论文,而且同样偶合的是,月之暗面开创人兼 CEO 杨植麟也是该论文的签名作者之一。而且差别于 DeepSeek 只宣布了一篇论文,月之暗面还宣布了相干代码。且这些代码已有一年的现实安排验证,无效性跟持重性都有保障。这篇论文提出了一种名为 MoBA 的留神力机制,即 Mixture of Block Attention,能够直译为「块留神力混杂」。据先容,MoBA 是「一种将混杂专家(MoE)道理利用于留神力机制的翻新方式。」该方式遵守「更少构造」准则,并不会引入预约义的成见,而是让模子自立决议存眷哪些地位。论文题目:MoBA: Mixture of Block Attention for Long-Context LLMs论文地点:https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf名目地点:https://github.com/MoonshotAI/MoBA与 DeepSeek 的 NSA 留神力机制新论文一样,月之暗面这篇 MoBA 论文也播种了诸多好评。上面咱们就来解读一下这篇论文。近来一段时光,年夜言语模子(LLM)开展到了史无前例的范围,咱们盼望它们可能处置模仿人类认知的庞杂义务。详细来说,实现 AGI 的一个要害才能是处置、懂得跟天生长序列的才能,这对从汗青数据剖析到庞杂推理跟决议进程的种种利用至关主要。这种对扩大高低文处置才能的需要不只表现在长输入提醒懂得的遍及上,还表现在近来 Kimi k1.5、DeepSeek-R1 跟 OpenAI o1/o3 中展现的,对长链头脑(CoT)输出才能的摸索中。但是,因为传统留神力机制带来的盘算庞杂度呈二次函数增加,扩大 LLM 的序列长度并非易事。这一挑衅催生了一波研讨海潮,此中一个主要偏向是应用留神力分数的固有稀少性。这种稀少性既源于数学上的 softmax 操纵,也源于生物学上的察看,即人们已在与影象存储相干的年夜脑地区中察看到了稀少衔接。现无方法平日应用预约义的构造束缚(比方基于 sink 的留神力机制或滑动窗口留神力机制)来应用这种稀少性。固然这些方式可能无效,但它们每每高度依附于特定义务,可能会限度模子的团体泛化才能。另一种方式是采取静态稀少留神力机制,比方 Quest、Minference 跟 RetrievalAttention,这些方式在推理时抉择局部 token 停止盘算。只管这些方式能够增加长序列的盘算量,但它们并未明显缓解长高低文模子的昂扬练习本钱。近来,线性留神力模子作为一种有远景的替换计划呈现,比方 Mamba、RWKV 跟 RetNet。这些方式用线性近似替换了传统的基于 softmax 的留神力机制,从而下降了长序列处置的盘算开支。但是,因为线性留神力与传统留神力机制存在明显差别,适配现有的 Transformer 模子平日须要昂扬的转换本钱,或许须要重新开端练习全新的模子。更主要的是,它们在庞杂推理义务中的无效性证据依然无限。因而,一个要害的研讨成绩随之而来:咱们怎样计划一种持重且顺应性强的留神力架构,既能保存原始 Transformer 框架,又能遵守「更少构造」的准则,使模子可能在不依附预约义偏向的情形下自立决议存眷哪些局部?幻想情形下,这种架构可能在完整留神力跟稀少留神力形式之间无缝切换,从而最年夜限制地与现有预练习模子兼容,并在不就义机能的条件下实现高效推理跟减速练习。为此研讨职员提出了块留神力混杂机制(Mixture of Block Attention, MoBA),这是一种全新架构,它基于混杂专家体系(MoE)的翻新道理,并将其利用于 Transformer 模子的留神力机制中。MoE 此前重要利用于 Transformer 的前馈收集(FFN)层,而 MoBA 初次将其引入长高低文留神力机制中,容许静态抉择与每个查问 token 相干的汗青要害块跟值块。这种方式不只进步了 LLM 的效力,还使其可能处置更长、更庞杂的提醒,而无需按比例增添资本耗费。比拟之下,MoBA 经由过程将高低文分别为块并采取门控机制抉择性地将查问 token 路由到最相干的块,处理了传统留神力机制的盘算效力低下的成绩。这种块稀少留神力明显下降了盘算本钱,为更高效地处置长序列摊平了途径。模子可能静态抉择最具信息量的要害块,从而进步了机能跟效力,这对波及大批高低文信息的义务尤为有利。在该任务中,月之暗面具体先容了 MoBA 的架构,起首是其块分别跟路由战略,其次是与传统留神力机制比拟的盘算效力。他们也停止了试验,证实了 MoBA 在处置长序列义务中的出色机能。MoBA:将 MoE 道理利用于留神力机制MoBA 经由过程静态抉择汗青片断(块)停止留神力盘算,扩大了 Transformer 模子的才能。MoBA 的灵感起源于混杂专家(Mixture of Experts,简称 MoE)技巧跟稀少留神力技巧。前者重要利用于 Transformer 架构中的前馈收集(Feedforward Network,简称 FFN)层,然后者已被普遍用于扩大 Transformer 以处置长文本高低文。本文翻新点在于月之暗面将 MoE 道理利用于留神力机制自身,从而实现对长序列更高效跟更无效的处置。MoBA 重要包含如下局部:可练习的块稀少留神力:将完全高低文宰割成多少块,每个查问 token 都市进修存眷最相干的 KV 块,从而实现长序列的高效处置。无参数门控机制:引入了一种新鲜的无参数 top-k 门控机制,为每个查问 token 抉择最相干的块,确保模子只存眷最具信息量的内容。完整留神力与稀少留神力的无缝切换:MoBA 被计划为完整留神力机制的机动替换计划,可能在完整留神力跟稀少留神力形式之间实现腻滑过渡。总体而言,MoBA 留神力机制使模子可能自顺应且静态地存眷高低文中最有信息量的块。这在处置波及长文档或序列的义务时尤其有利,由于在这些义务中,存眷全部高低文可能是不用要的,而且盘算价值昂扬。MoBA 抉择性地存眷相干块的才能,使得信息处置愈加过细且高效。月之暗面经由过程整合来自 FlashAttention 跟 MoE 的优化技巧,实现了 MoBA 的高机能版本。图 2 展现了 MoBA 的高效力。MoBA 实现进程包括五个步调:依据门控收集跟因果掩码,断定查问 token 对 KV 块的调配。依据调配的 KV 块,部署查问 token 的次序。盘算每个 KV 块的留神力输出跟调配给它的查问 token,这一步能够经由过程差别长度的 FlashAttention 来优化。将留神力输出从新陈列回其原始次序。应用在线 Softmax 兼并响应的留神力输出,由于一个查问 token 可能会存眷其以后块以及多个汗青 KV 块。下图为该算法的情势化描写,并在图 1b 中停止了可视化,展现了怎样基于 MoE 跟 FlashAttention 实现 MoBA。MoBA 的试验表示为了验证 MoBA 的现实后果,月之暗面停止了一系列 Scaling Law 跟融化试验。Full Attention 与 MoBA 对照试验该团队练习了 5 个模子来停止比拟,表 1 给出具体设置。成果见图 3a,能够看到,Full Attention 与 MoBA 的 scaling 趋向十分类似。详细来说,这两种留神力机制之间的验证丧失差别在 1e − 3 的范畴内坚持分歧。这标明,只管 MoBA 的稀少留神力形式稀少度高达 75%,但它实现了与完整留神力相称的扩大机能。别的,该团队也验证了 MoBA 的高低文可扩大性。在试验中,该团队将最年夜序列长度从 8k 晋升到了 32k。成果见图 3b,可见只管在全部五项试验中,MoBA 最后的块 LM 丧失与 Full Attention 比拟略高,但丧失差距正在逐渐缩小。该试验标明 MoBA 存在长高低文可扩大性。该团队也经由过程融化试验对 MoBA 的细粒度块宰割的无效性停止了验证,成果见图 4。能够看到,MoBA 的机能受块粒度的明显影响。详细来说,最粗粒度设置(从 8 个块当选择 2 个块)与更细粒度的设置之间的机能差别为 1e-2。这些发明标明,细粒度宰割仿佛是加强 MoE 系列(包含 MoBA)模子机能的普适技巧。将 MoBA 与 Full Attention 融会到一同会怎样?MoBA 本就是作为 Full Attention 的机动替换而计划的,能够最小的开支轻松地相互切换,并实现相称的长高低文机能。月之暗面试验标明,Full Attention 跟 MoBA 之间的无缝过渡能够成为高效长高低文预练习的处理计划。而后他们还探讨了分层混杂战略,其感化重要是晋升监视微调(SFT)的机能。在试验中的混杂练习时,模子应用的是两阶段计划:第一阶段应用 MoBA 实现 90% 的 token 练习,第二阶段模子切换到 Full Attention 应用残余 10% 的 token 停止练习。别的,固然也应用了纯 MoBA 跟纯 Full Attention 方式作为对照。成果见图 5a,仅应用 MoBA 时会招致 trailing token 的地位丧失更高。主要的是,混杂计划的丧失多少乎与 Full Attention 一样。这一成果凸显了混杂练习计划在均衡练习效力跟模子机能方面的无效性。更风趣的是,在 MoBA 跟 Full Attention 之间切换时不察看到显明的丧失峰值,这再次证实了 MoBA 的机动性跟持重性。月之暗面也研讨了分层混杂的计划。这种计划固然愈加庞杂,研讨念头是他们察看到 MoBA 偶然会招致 SFT 时期的机能欠安,如图 5b 所示。他们揣测这可能归因于 SFT 中应用的丧失遮蔽(loss masking)—— 提醒词 token 平日被消除在 SFT 时期的丧失盘算之外,这可能会对 MoBA 等稀少留神力方式形成稀少梯度困难。由于它可能会妨碍梯度的反向传布,而这些梯度最初是依据未遮蔽的 token 盘算出来的,并贯串全部高低文。为懂得决这个成绩,他们提出了另一种混杂方式 —— 将最后多少层 Transformer 从 MoBA 换成 Full Attention,而其他层持续采取 MoBA。如图 5b 跟图 5c 所示,此战略能够明显增加 SFT 丧失。年夜言语模子评价研讨团队基于 Llama 3.1 8B 模子开辟了 Llama-8B1M-MoBA,经由过程连续预练习将高低文长度从 128K 逐渐扩大到 1M token。模子采取块巨细 4096 跟 top-K 参数 12 的设置,实现了高达 95.31% 的留神力稀少度。为均衡机能,他们保存最后三层为 Full Attention,其他 29 层应用 MoBA。评价成果表现,MoBA 模子与 Full Attention 模子(Llama-8B-1M-Full)机能相称。特殊是在最具挑衅性的 RULER 基准测试中,即便在 62.5% 的稀少度下,MoBA 模子仍到达了 0.7818 的得分,多少乎与 Full Attention 模子的 0.7849 持平。对须要处置 100 万 token 的「海底捞针」测试会合,模子同样展示出优良的才能。效力跟可扩大性试验证实,MoBA 在坚持机能的同时明显晋升了效力:在处置 1M token 时,比 Full Attention 模子快 6.5 倍。在扩大到 1000 万 token 时,较尺度 Flash Attention 实现了 16 倍减速;经由过程块稀少留神力机制跟优化实现,MoBA 将盘算庞杂度从二次方下降到了亚二次方级别。这使得 MoBA 的上风在序列长度增添时更为显明,特殊合适处置超长文本场景。更多概况,请拜见原论文。