HuggingFace Papers · 大模型

Lighthouse Attention 实现长上下文预训练

Lighthouse Attention 是一种面向长上下文预训练的高效注意力机制。研究者通过稀疏化策略降低计算开销，同时维持模型对长程依赖的捕捉能力。该方法在千亿 token 级语料上验证了效果，为更长序列的模型训练提供了可行的技术路径。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。