MiniMax-M1
MiniMax-M1是一个大型混合注意力推理模型,它具有以下主要功能和特点:
-
混合专家模型(MoE):该模型采用混合专家模型架构,该架构结合了闪电注意力机制。总共有4560亿个参数,每个token激活459亿个参数。
-
超长上下文:原生支持100万token的上下文长度,是DeepSeek R1的8倍。
-
高效计算:由于采用了闪电注意力机制,MiniMax-M1在测试时能够有效地扩展计算能力,例如,在生成10万个token时,其FLOPs消耗量仅为DeepSeek R1的25%。
-
强化学习训练:使用大规模强化学习(RL)进行训练,涉及数学推理到基于沙盒的真实世界软件工程环境等多种问题。
-
CISPO算法:采用了名为CISPO的新型算法,该算法裁剪重要性抽样权重而非token更新,优于其他竞争性RL变体。
-
优越性能:在标准基准测试中,该模型优于其他强大的开放权重模型,尤其是在复杂的软件工程、工具使用和长上下文任务方面。
-
支持Function Calling:该模型支持函数调用功能,可以识别何时需要调用外部函数,并以结构化格式输出函数调用参数。
-
在线服务和API:提供具有在线搜索能力的Chatbot以及面向开发者的在线API。
简而言之,MiniMax-M1凭借其混合MoE架构、超长上下文处理能力、强化学习训练以及在复杂任务上的卓越性能,为下一代语言模型智能体奠定了坚实的基础。