QwenLong-L1 QwenLong-L1 该文档介绍了 QwenLong-L1，这是一个利用强化学习 (RL) 训练的用于长文本推理的大型语言模型 (LLM)。 QwenLong-L1 的核心要点：创新性： QwenLong-L1 是首个利用强化学习进行长文本推理训练的 LLM。性能卓越：在七个长文本文档问答 (DocQA) 基准测试中，QwenLong-L | Ilingge

QwenLong-L1

该文档介绍了 QwenLong-L1，这是一个利用强化学习 (RL) 训练的用于长文本推理的大型语言模型 (LLM)。

QwenLong-L1 的核心要点：

创新性： QwenLong-L1 是首个利用强化学习进行长文本推理训练的 LLM。
性能卓越： 在七个长文本文档问答 (DocQA) 基准测试中，QwenLong-L1-32B 的性能优于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰 LLM，与 Claude-3.7-Sonnet-Thinking 的性能相当。
强化学习框架： 提出了一种新的强化学习框架，旨在促进 LLM 从短文本能力向强大的长文本泛化能力过渡。该框架包括：
- 热身监督微调 (SFT) 阶段： 初始化一个强大的策略。
- 课程引导的 RL 阶段： 促进从短文本到长文本的稳定适应。
- 难度感知的回顾性采样机制： 调整各个阶段的训练复杂度，以激励策略探索。
数据集： 发布了 DocQA-RL-1.6K，这是一个专门的 RL 训练数据集，包含 1.6K 个文档问答 (DocQA) 问题，涵盖数学、逻辑和多跳推理领域。

QwenLong-L1 的使用场景：

如何使用 QwenLong-L1：

文档提供了详细的安装和快速入门指南，包括：

总结：

QwenLong-L1 是一个强大的长文本推理模型，通过创新的强化学习框架和专门的数据集，在长文本文档问答任务中取得了领先的性能。该模型具有广泛的应用前景，例如文档分析、知识检索和智能问答系统。文档提供了详细的使用指南，方便研究人员和开发人员使用该模型。