AI新工具
banner

dots.llm1


介绍:

dots.llm1:142B参数MoE大模型,开源中间训练检查点









dots.llm1

dots.llm1 是一个大规模混合专家 (MoE) 模型,其主要功能、核心要点和关键特性如下:

  • 大规模MoE模型: 该模型激活了140亿参数,总参数量达到1420亿,在性能上可与最先进的模型相媲美。
  • 高效的数据处理: 采用精心设计的高效数据处理流程,在11.2T高质量tokens上进行预训练,性能可与Qwen2.5-72B媲美,且未使用合成数据。
  • 开放模型动态: 开源了每训练1万亿个tokens的中间训练检查点,为研究大型语言模型的学习动态提供了宝贵的见解。
  • 增强的数据处理: 提出了一种可扩展的、精细的三阶段数据处理框架,旨在生成大规模、高质量和多样化的预训练数据。
  • 无合成数据预训练: 在基础模型预训练中使用了11.2万亿高质量非合成tokens。
  • 性能和成本效益: dots.llm1 是一个开源模型,在推理时仅激活 140 亿个参数,从而提供全面的功能和高计算效率。
  • 基础设施: 引入了一种创新的MoE all-to-all通信和计算重叠方法,该方法基于交错的1F1B流水线调度和高效的分组GEMM实现,以提高计算效率。

总体来说,dots.llm1 项目旨在通过开源一个高性能、高效率的大规模MoE模型,并提供模型训练过程中的中间状态,来促进对大型语言模型的研究。