MiniMax-M1 技术进化图谱

从 Transformer 到 Lightning Attention,从 PPO 到 CISPO。
追溯全球首个开源大规模混合注意力推理模型背后的完整技术演进路径

456B
总参数
45.9B
激活参数
1M
上下文长度
80K
思考预算
3周
训练时间
注意力机制演进
Attention Evolution
从 O(n²) 到 O(n) 的效率革命
2017
Transformer Vaswani et al. 奠基之作

提出自注意力机制(Self-Attention),完全摒弃循环和卷积结构,开启了 NLP 的新纪元。 但 O(n²) 的计算复杂度限制了长序列处理能力。

Paper: "Attention Is All You Need" - NeurIPS 2017

2020
Longformer & Big Bird Beltagy et al. / Zaheer et al. 稀疏注意力

引入稀疏注意力机制(滑动窗口 + 全局注意力 + 随机注意力), 将复杂度降低到 O(n),支持更长序列。

Longformer: "The Long-Document Transformer" | Big Bird: "Transformers for Longer Sequences"

2020
Linear Attention Katharopoulos et al. 线性注意力

提出用核函数近似 softmax attention,实现 O(n) 的线性复杂度, 为后续高效注意力机制奠定基础。

Paper: "Transformers are RNNs" - ICML 2020

2021
Performer Choromanski et al. 随机特征

使用随机特征分解(FAVOR+)近似 softmax attention, 进一步提升线性注意力的实用性和精度。

Paper: "Rethinking Attention with Performers" - ICLR 2021

2022
cosFormer & Linear Transformer Qin et al. / Katharopoulos et al. 可逆注意力

重新思考 softmax 的作用,提出余弦机制的线性注意力变体, 解决线性注意力的表达力问题。

cosFormer: ICLR 2022 | Linear Transformer: "The Devil in Linear Transformer"

2024
Lightning Attention Qin et al. @ MiniMax 核心突破

MiniMax-M1 的核心创新! I/O 感知的线性注意力实现, 支持 100 万 token 上下文,生成 10 万 token 仅需标准 Transformer 25% 的 FLOPs。 理论复杂度 O(n),实际推理效率极高。

Paper: "Lightning Attention-2", "Various Lengths, Constant Speed" - ICML 2024

🧠
状态空间模型演进
State Space Models Evolution
序列建模的新范式
1997
LSTM Hochreiter & Schmidhuber 奠基之作

长短期记忆网络,解决梯度消失问题,成为循环神经网络的标准架构。 为后续状态空间模型埋下伏笔。

Paper: "Long Short-Term Memory" - Neural Computation

2020
HiPPo Gu et al. 理论基础

提出用最优多项式投影进行序列建模,为状态空间模型提供数学基础。 证明可以通过特定的状态空间架构压缩历史信息。

Paper: "Hippo: Recurrent Memory with Optimal Polynomial Projections" - NeurIPS 2020

2022
S4 & H3 Gu et al. / Dao & Gu 结构化SSM

结构化状态空间模型,通过 HiPPO 矩阵实现高效的长序列建模。 在 Long Range Arena 基准测试中表现出色。

S4: ICLR 2022 | H3: "Transformers are SSMs" - 2024

2024
Mamba Gu & Dao @ CMU 颠覆性创新

选择性状态空间模型,实现真正的 O(n) 线性时间建模。 首次在语言建模上与 Transformer 竞争。

Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" - First Conference on Language Modeling 2024

2024
Mamba 2 / Jamba / Samba Dao & Gu / Jamba Team / Ren et al. 混合架构

结合 SSM 与注意力机制的混合架构探索。 Jamba 混合 Mamba 与 Transformer,Samba 进一步结合 MoE。 MiniMax-M1 的混合注意力设计借鉴了这一思路。

Jamba: "Hybrid Transformer-Mamba" | Samba: "Simple Hybrid State Space Models"

🎯
强化学习算法演进
RL Algorithms Evolution
从 PPO 到 CISPO 的效率革命
2017
PPO (Proximal Policy Optimization) Schulman et al. @ OpenAI 行业标准

提出置信域策略优化的简化实现,通过裁剪机制稳定训练。 成为强化学习在 LLM 应用的基石算法。

Paper: "Proximal Policy Optimization Algorithms" - arXiv 2017

2024
GRPO (Group Relative Policy Optimization) Shao et al. @ DeepSeek 推理突破

移除价值函数,使用组内相对奖励计算优势。 成功训练出 DeepSeek-R1,推动开源推理模型浪潮。

Paper: "DeepSeekMath" - arXiv 2024

timeline-year">202
DAPO (Decoupled Clip Policy Optimization) Yu et al. @ ByteDance 效率优化

解耦裁剪策略,增加 token 级损失,提升长 CoT 训练稳定性。 Seed1.5-Thinking 等模型采用此方法。

Paper: "DAPO: An Open-Source LLM Reinforcement Learning System" - arXiv 2025

2025
CISPO (Clipped IS-weight Policy Optimization) MiniMax Team 核心创新

MiniMax-M1 的核心创新! 裁剪重要性采样权重而非 token 更新。 保留所有 token 的梯度贡献,特别适合长 CoT 推理。 在 Qwen2.5-32B 上比 DAPO 快 2 倍达到相同性能!

Paper: MiniMax-M1 Technical Report - arXiv 2025

🧩
大型推理模型演进
Reasoning Models Evolution
测试时计算的新纪元
2022
Chain-of-Thought (CoT) Wei et al. @ Google 范式奠基

提出思维链提示,通过展示中间推理步骤显著提升模型推理能力。 奠定了"思考过程"可视化的基础。

Paper: "Chain-of-Thought Prompting Elicits Reasoning in LLMs" - NeurIPS 2022

2024
OpenAI o1 OpenAI 突破时刻

首个大规模测试时计算推理模型,通过 RL 训练实现"深度思考"。 在数学、编程等复杂任务上取得突破性进展。

Blog: "Introducing OpenAI o1" - 2024

2025
DeepSeek-R1 DeepSeek-AI 开源革命

完全开源的大规模推理模型,通过 GRPO 训练。 证明开源社区可以达到闭源前沿水平。 MiniMax-M1 的重要对比基准。

Paper: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" - arXiv 2025

2025
MiniMax-M1 MiniMax Team 当前巅峰

世界首个开源大规模混合注意力推理模型!
1M 上下文(DeepSeek-R1 的 8 倍)+ 80K 思考预算
在软件工程、工具使用、长上下文任务上领先
RL 训练仅需 3 周,成本约 $534K

Paper: "MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention" - arXiv 2025

MiniMax-M1 混合注意力架构

Input 1M tokens Lightning Attn TransNormer Lightning Attn Lightning Attn Lightning Attn Lightning Attn Lightning Attn Lightning Attn Softmax Attention Transformer MoE: 32 Experts, 2 Selected per Token (45.9B Activated / 456B Total) Output 80K tokens 重复: 7× Lightning Attention + 1× Softmax Attention + MoE ⚡ Lightning Attention: O(n) 线性复杂度 | 🔮 Softmax Attention: O(n²) 但保留全局建模能力

推理模型对比 - Test-Time Compute 效率

模型 上下文长度 输出长度 注意力机制 RL 算法 训练成本
OpenAI o1 200K 100K 标准 Transformer 未公开 未公开
DeepSeek-R1 128K 64K 标准 Transformer GRPO 未公开
Qwen3-235B 128K 32K 标准 Transformer GRPO 未公开
MiniMax-M1 1M (8×) 80K Lightning + Softmax CISPO $534K / 3周
Gemini 2.5 Pro 1M 64K 未公开 未公开 未公开

🎯 混合注意力架构

⚡ Lightning Attention

🎯 CISPO 算法

📚 技术传承

🚀 MiniMax-M1 核心创新

1. Lightning Attention

首次在大规模推理模型中应用线性注意力。通过 I/O 感知的工程优化, 实现 O(n) 理论复杂度和极致的实际效率。100 万上下文 + 10 万输出 所需的 FLOPs 仅为标准 Transformer 的 1/4。

2. CISPO 算法

突破传统 PPO/GRPO 的 token 级裁剪限制,改为裁剪重要性采样权重。 确保长 CoT 推理中的每个 token 都能贡献梯度,特别适合深度思考场景。 训练效率比 DAPO 提升 100%。

3. 高效 RL 训练

512 块 H800 GPU,3 周完成训练,总成本仅 $534,700。 受益于 Lightning Attention 的高效推理和 CISPO 的稳定训练, 实现了前所未有的训练效率。

技术演进时间线总览

2017 2020 2022 2024 2025 Now 注意力机制 Transformer Longformer/BigBird Linear Attn Lightning Attn 状态空间模型 LSTM HiPPO S4/H3 Mamba 强化学习算法 PPO GRPO DAPO CISPO ✨ 推理模型 CoT OpenAI o1 DeepSeek-R1 MiniMax-M1 ✨ MiniMax -M1
Created by MiniMax Agent
×