你的位置：江南app平台下载官网安卓 > 新闻动态 > 梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

发布日期：2025-03-08 16:53 点击次数：188

在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。

这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA（稀疏注意力）在提高效率同时，为提高模型能力提供新的方向，实现将算法创新与硬件对齐的优化相结合，进行高效的长上下文建模。

就在DeepSeek论文发布当天，月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS（直译为“MoBA：面向长上下文大语言模型的块注意力混合方法”）》，提出了与NSA类似的稀疏注意力框架MoBA，并设计了一套可以自由切换全注意力和稀疏注意力机制的方式，为已有的全注意力模型更多的适配空间。（澎湃）

下一篇：印巴突然全面停火！美揽下所有功劳，转头就被巴铁打脸：感谢中国上一篇：现货黄金一度跌破2860美元/盎司，日内涨幅收窄至0.1%

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

热点资讯

推荐资讯

推荐资讯

热点资讯