MiniMax-M1 技术进化图谱

⚡

注意力机制演进

Attention Evolution

从 O(n²) 到 O(n) 的效率革命

2017

Transformer Vaswani et al. 奠基之作

提出自注意力机制（Self-Attention），完全摒弃循环和卷积结构，开启了 NLP 的新纪元。但 O(n²) 的计算复杂度限制了长序列处理能力。

Paper: "Attention Is All You Need" - NeurIPS 2017

2020

Longformer & Big Bird Beltagy et al. / Zaheer et al. 稀疏注意力

引入稀疏注意力机制（滑动窗口 + 全局注意力 + 随机注意力），将复杂度降低到 O(n)，支持更长序列。

Longformer: "The Long-Document Transformer" | Big Bird: "Transformers for Longer Sequences"

2020

Linear Attention Katharopoulos et al. 线性注意力

提出用核函数近似 softmax attention，实现 O(n) 的线性复杂度，为后续高效注意力机制奠定基础。

Paper: "Transformers are RNNs" - ICML 2020

2021

Performer Choromanski et al. 随机特征

使用随机特征分解（FAVOR+）近似 softmax attention，进一步提升线性注意力的实用性和精度。

Paper: "Rethinking Attention with Performers" - ICLR 2021

2022

cosFormer & Linear Transformer Qin et al. / Katharopoulos et al. 可逆注意力

重新思考 softmax 的作用，提出余弦机制的线性注意力变体，解决线性注意力的表达力问题。

cosFormer: ICLR 2022 | Linear Transformer: "The Devil in Linear Transformer"

2024

Lightning Attention Qin et al. @ MiniMax 核心突破

MiniMax-M1 的核心创新！ I/O 感知的线性注意力实现，支持 100 万 token 上下文，生成 10 万 token 仅需标准 Transformer 25% 的 FLOPs。理论复杂度 O(n)，实际推理效率极高。

Paper: "Lightning Attention-2", "Various Lengths, Constant Speed" - ICML 2024

🧠

状态空间模型演进

State Space Models Evolution

序列建模的新范式

1997

LSTM Hochreiter & Schmidhuber 奠基之作

长短期记忆网络，解决梯度消失问题，成为循环神经网络的标准架构。为后续状态空间模型埋下伏笔。

Paper: "Long Short-Term Memory" - Neural Computation

2020

HiPPo Gu et al. 理论基础

提出用最优多项式投影进行序列建模，为状态空间模型提供数学基础。证明可以通过特定的状态空间架构压缩历史信息。

Paper: "Hippo: Recurrent Memory with Optimal Polynomial Projections" - NeurIPS 2020

2022

S4 & H3 Gu et al. / Dao & Gu 结构化SSM

结构化状态空间模型，通过 HiPPO 矩阵实现高效的长序列建模。在 Long Range Arena 基准测试中表现出色。

S4: ICLR 2022 | H3: "Transformers are SSMs" - 2024

2024

Mamba Gu & Dao @ CMU 颠覆性创新

选择性状态空间模型，实现真正的 O(n) 线性时间建模。首次在语言建模上与 Transformer 竞争。

Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" - First Conference on Language Modeling 2024

2024

Mamba 2 / Jamba / Samba Dao & Gu / Jamba Team / Ren et al. 混合架构

结合 SSM 与注意力机制的混合架构探索。 Jamba 混合 Mamba 与 Transformer，Samba 进一步结合 MoE。 MiniMax-M1 的混合注意力设计借鉴了这一思路。

Jamba: "Hybrid Transformer-Mamba" | Samba: "Simple Hybrid State Space Models"

🎯

强化学习算法演进

RL Algorithms Evolution

从 PPO 到 CISPO 的效率革命

2017

PPO (Proximal Policy Optimization) Schulman et al. @ OpenAI 行业标准

提出置信域策略优化的简化实现，通过裁剪机制稳定训练。成为强化学习在 LLM 应用的基石算法。

Paper: "Proximal Policy Optimization Algorithms" - arXiv 2017

2024

GRPO (Group Relative Policy Optimization) Shao et al. @ DeepSeek 推理突破

移除价值函数，使用组内相对奖励计算优势。成功训练出 DeepSeek-R1，推动开源推理模型浪潮。

Paper: "DeepSeekMath" - arXiv 2024

timeline-year">202

DAPO (Decoupled Clip Policy Optimization) Yu et al. @ ByteDance 效率优化

解耦裁剪策略，增加 token 级损失，提升长 CoT 训练稳定性。 Seed1.5-Thinking 等模型采用此方法。

Paper: "DAPO: An Open-Source LLM Reinforcement Learning System" - arXiv 2025

2025

CISPO (Clipped IS-weight Policy Optimization) MiniMax Team 核心创新

MiniMax-M1 的核心创新！ 裁剪重要性采样权重而非 token 更新。保留所有 token 的梯度贡献，特别适合长 CoT 推理。在 Qwen2.5-32B 上比 DAPO 快 2 倍达到相同性能！

Paper: MiniMax-M1 Technical Report - arXiv 2025

🧩

大型推理模型演进

Reasoning Models Evolution

测试时计算的新纪元

2022

Chain-of-Thought (CoT) Wei et al. @ Google 范式奠基

提出思维链提示，通过展示中间推理步骤显著提升模型推理能力。奠定了"思考过程"可视化的基础。

Paper: "Chain-of-Thought Prompting Elicits Reasoning in LLMs" - NeurIPS 2022

2024

OpenAI o1 OpenAI 突破时刻

首个大规模测试时计算推理模型，通过 RL 训练实现"深度思考"。在数学、编程等复杂任务上取得突破性进展。

Blog: "Introducing OpenAI o1" - 2024

2025

DeepSeek-R1 DeepSeek-AI 开源革命

完全开源的大规模推理模型，通过 GRPO 训练。证明开源社区可以达到闭源前沿水平。 MiniMax-M1 的重要对比基准。

Paper: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" - arXiv 2025

2025

MiniMax-M1 MiniMax Team 当前巅峰

世界首个开源大规模混合注意力推理模型！
1M 上下文（DeepSeek-R1 的 8 倍）+ 80K 思考预算
在软件工程、工具使用、长上下文任务上领先
RL 训练仅需 3 周，成本约 $534K

Paper: "MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention" - arXiv 2025

模型	上下文长度	输出长度	注意力机制	RL 算法	训练成本
OpenAI o1	200K	100K	标准 Transformer	未公开	未公开
DeepSeek-R1	128K	64K	标准 Transformer	GRPO	未公开
Qwen3-235B	128K	32K	标准 Transformer	GRPO	未公开
MiniMax-M1	1M (8×)	80K	Lightning + Softmax	CISPO	$534K / 3周
Gemini 2.5 Pro	1M	64K	未公开	未公开	未公开

MiniMax-M1 技术进化图谱

MiniMax-M1 混合注意力架构

推理模型对比 - Test-Time Compute 效率

🎯 混合注意力架构

⚡ Lightning Attention

🎯 CISPO 算法

📚 技术传承

🚀 MiniMax-M1 核心创新

1. Lightning Attention

2. CISPO 算法

3. 高效 RL 训练

技术演进时间线总览