从 Transformer 到 Lightning Attention,从 PPO 到 CISPO。
追溯全球首个开源大规模混合注意力推理模型背后的完整技术演进路径
提出自注意力机制(Self-Attention),完全摒弃循环和卷积结构,开启了 NLP 的新纪元。 但 O(n²) 的计算复杂度限制了长序列处理能力。
Paper: "Attention Is All You Need" - NeurIPS 2017
引入稀疏注意力机制(滑动窗口 + 全局注意力 + 随机注意力), 将复杂度降低到 O(n),支持更长序列。
Longformer: "The Long-Document Transformer" | Big Bird: "Transformers for Longer Sequences"
提出用核函数近似 softmax attention,实现 O(n) 的线性复杂度, 为后续高效注意力机制奠定基础。
Paper: "Transformers are RNNs" - ICML 2020
使用随机特征分解(FAVOR+)近似 softmax attention, 进一步提升线性注意力的实用性和精度。
Paper: "Rethinking Attention with Performers" - ICLR 2021
重新思考 softmax 的作用,提出余弦机制的线性注意力变体, 解决线性注意力的表达力问题。
cosFormer: ICLR 2022 | Linear Transformer: "The Devil in Linear Transformer"
MiniMax-M1 的核心创新! I/O 感知的线性注意力实现, 支持 100 万 token 上下文,生成 10 万 token 仅需标准 Transformer 25% 的 FLOPs。 理论复杂度 O(n),实际推理效率极高。
Paper: "Lightning Attention-2", "Various Lengths, Constant Speed" - ICML 2024
长短期记忆网络,解决梯度消失问题,成为循环神经网络的标准架构。 为后续状态空间模型埋下伏笔。
Paper: "Long Short-Term Memory" - Neural Computation
提出用最优多项式投影进行序列建模,为状态空间模型提供数学基础。 证明可以通过特定的状态空间架构压缩历史信息。
Paper: "Hippo: Recurrent Memory with Optimal Polynomial Projections" - NeurIPS 2020
结构化状态空间模型,通过 HiPPO 矩阵实现高效的长序列建模。 在 Long Range Arena 基准测试中表现出色。
S4: ICLR 2022 | H3: "Transformers are SSMs" - 2024
选择性状态空间模型,实现真正的 O(n) 线性时间建模。 首次在语言建模上与 Transformer 竞争。
Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" - First Conference on Language Modeling 2024
结合 SSM 与注意力机制的混合架构探索。 Jamba 混合 Mamba 与 Transformer,Samba 进一步结合 MoE。 MiniMax-M1 的混合注意力设计借鉴了这一思路。
Jamba: "Hybrid Transformer-Mamba" | Samba: "Simple Hybrid State Space Models"
提出置信域策略优化的简化实现,通过裁剪机制稳定训练。 成为强化学习在 LLM 应用的基石算法。
Paper: "Proximal Policy Optimization Algorithms" - arXiv 2017
移除价值函数,使用组内相对奖励计算优势。 成功训练出 DeepSeek-R1,推动开源推理模型浪潮。
Paper: "DeepSeekMath" - arXiv 2024
解耦裁剪策略,增加 token 级损失,提升长 CoT 训练稳定性。 Seed1.5-Thinking 等模型采用此方法。
Paper: "DAPO: An Open-Source LLM Reinforcement Learning System" - arXiv 2025
MiniMax-M1 的核心创新! 裁剪重要性采样权重而非 token 更新。 保留所有 token 的梯度贡献,特别适合长 CoT 推理。 在 Qwen2.5-32B 上比 DAPO 快 2 倍达到相同性能!
Paper: MiniMax-M1 Technical Report - arXiv 2025
提出思维链提示,通过展示中间推理步骤显著提升模型推理能力。 奠定了"思考过程"可视化的基础。
Paper: "Chain-of-Thought Prompting Elicits Reasoning in LLMs" - NeurIPS 2022
首个大规模测试时计算推理模型,通过 RL 训练实现"深度思考"。 在数学、编程等复杂任务上取得突破性进展。
Blog: "Introducing OpenAI o1" - 2024
完全开源的大规模推理模型,通过 GRPO 训练。 证明开源社区可以达到闭源前沿水平。 MiniMax-M1 的重要对比基准。
Paper: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" - arXiv 2025
世界首个开源大规模混合注意力推理模型!
1M 上下文(DeepSeek-R1 的 8 倍)+ 80K 思考预算
在软件工程、工具使用、长上下文任务上领先
RL 训练仅需 3 周,成本约 $534K
Paper: "MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention" - arXiv 2025
| 模型 | 上下文长度 | 输出长度 | 注意力机制 | RL 算法 | 训练成本 |
|---|---|---|---|---|---|
| OpenAI o1 | 200K | 100K | 标准 Transformer | 未公开 | 未公开 |
| DeepSeek-R1 | 128K | 64K | 标准 Transformer | GRPO | 未公开 |
| Qwen3-235B | 128K | 32K | 标准 Transformer | GRPO | 未公开 |
| MiniMax-M1 | 1M (8×) | 80K | Lightning + Softmax | CISPO | $534K / 3周 |
| Gemini 2.5 Pro | 1M | 64K | 未公开 | 未公开 | 未公开 |
首次在大规模推理模型中应用线性注意力。通过 I/O 感知的工程优化, 实现 O(n) 理论复杂度和极致的实际效率。100 万上下文 + 10 万输出 所需的 FLOPs 仅为标准 Transformer 的 1/4。
突破传统 PPO/GRPO 的 token 级裁剪限制,改为裁剪重要性采样权重。 确保长 CoT 推理中的每个 token 都能贡献梯度,特别适合深度思考场景。 训练效率比 DAPO 提升 100%。
512 块 H800 GPU,3 周完成训练,总成本仅 $534,700。 受益于 Lightning Attention 的高效推理和 CISPO 的稳定训练, 实现了前所未有的训练效率。