MiniMax-01:使用闪电注意力机制扩展基础模型
MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
发布日期: 4/24/2025

摘要
我们推出 MiniMax-01 系列,包括 MiniMax-Text-01 和 MiniMax-VL-01,这些模型在处理更长上下文方面具备卓越能力,同时与顶级模型相当。其核心在于闪电注意力机制(lightning attention)及其高效的扩展性。为了最大化计算能力,我们将该机制与专家混合(Mixture of Experts, MoE)技术相结合,构建了一个包含 32 个专家、总参数量达 4560 亿的模型,每个 token 激活的参数量为 45.9 亿。我们开发了优化的并行策略和高效的计算-通信重叠技术,专门用于 MoE 和闪电注意力机制。这一方法使我们能够在数百万 token 的上下文中高效地训练和推理包含数千亿参数的模型。MiniMax-Text-01 在训练时的上下文窗口可达 100 万个 token,在推理时可扩展到 400 万个 token,且成本合理。我们的视觉-语言模型 MiniMax-VL-01 是通过继续训练包含 5120 亿视觉-语言 token 而构建的。在标准和内部基准测试中,我们的模型性能与 GPT-4o 和 Claude-3.5-Sonnet 等最先进模型相当,同时提供长达 20 至 32 倍的上下文窗口。我们已公开发布 MiniMax-01,地址为 https://github.com/MiniMax-AI。