dots.llm1
dots.llm1
是一个大规模混合专家 (MoE) 模型,其主要功能、核心要点和关键特性如下:
- 大规模MoE模型: 该模型激活了140亿参数,总参数量达到1420亿,在性能上可与最先进的模型相媲美。
- 高效的数据处理: 采用精心设计的高效数据处理流程,在11.2T高质量tokens上进行预训练,性能可与Qwen2.5-72B媲美,且未使用合成数据。
- 开放模型动态: 开源了每训练1万亿个tokens的中间训练检查点,为研究大型语言模型的学习动态提供了宝贵的见解。
- 增强的数据处理: 提出了一种可扩展的、精细的三阶段数据处理框架,旨在生成大规模、高质量和多样化的预训练数据。
- 无合成数据预训练: 在基础模型预训练中使用了11.2万亿高质量非合成tokens。
- 性能和成本效益:
dots.llm1
是一个开源模型,在推理时仅激活 140 亿个参数,从而提供全面的功能和高计算效率。 - 基础设施: 引入了一种创新的MoE all-to-all通信和计算重叠方法,该方法基于交错的1F1B流水线调度和高效的分组GEMM实现,以提高计算效率。
总体来说,dots.llm1
项目旨在通过开源一个高性能、高效率的大规模MoE模型,并提供模型训练过程中的中间状态,来促进对大型语言模型的研究。