GoLongRL

github2026-05-20 更新2026-05-21 收录

下载链接：

https://github.com/xiaoxuanNLP/GoLongRL

下载链接

链接失效反馈

官方服务：

资源简介：

GoLongRL是一个能力导向的长上下文强化学习与可验证奖励（RLVR）数据集，包含23K个样本，覆盖9种任务类型，包括精确检索、理解、穷举检索、数值推理、结构化提取、结构化匹配、分级排名、序列排序和摘要。每个任务都配有其自然评估指标（如EM、准确率、F1等）作为奖励函数，而不是统一为单一指标。

创建时间：

2026-05-19

原始信息汇总

🎯 GoLongRL 数据集详情总结

数据集概述

GoLongRL 是一个面向长上下文强化学习（RLVR）的、以能力为导向的全开源后训练数据集，由快手（Kwai）团队发布。该数据集包含 23,000 个样本，覆盖 9 种任务类型，旨在解决现有长上下文强化学习方法忽视多样化任务目标的问题。

发布机构：Kwai-Klear（快手）
论文链接：https://arxiv.org/abs/2605.19577
数据集地址：https://huggingface.co/datasets/Kwai-Klear/GoLongRL
模型地址：
- GoLongRL-4B：https://huggingface.co/Kwai-Klear/GoLongRL-4B
- GoLongRL-30B-A3B：https://huggingface.co/Kwai-Klear/GoLongRL-30B-A3B

核心创新

1. 能力导向的数据构建

基于长上下文能力分类体系，数据集覆盖以下 9 种任务类型，每种任务都配有对应的自然评估指标作为奖励函数：

任务类型	奖励函数
精确检索（Precise Retrieval）	EM（精确匹配）
理解（Comprehension）	Accuracy（准确率）
穷举检索（Exhaustive Retrieval）	F1
数值推理（Numerical Reasoning）	math_verify
结构化抽取（Structured Extraction）	IoU
结构化匹配（Structured Matching）	SubEM
分级排序（Graded Ranking）	NDCG
序列排序（Sequence Ordering）	Pairwise
摘要（Summarization）	ROUGE-L

2. TMN-Reweight 多任务优化方法

一种多任务对齐方法，包含两个核心组件：

任务级均值归一化（Task-Level Mean Normalization）：在任务层面而非提示层面进行优势归一化，解决跨任务奖励尺度不一致问题
难度自适应重加权（Difficulty-Adaptive Reweighting）：对非常简单或非常困难的提示降低权重，减少噪声

在 4B 规模下相比标准 GRPO 平均提升 0.8 分，主要在聚合密集型基准（如 CorpusQA）上表现更佳。

训练数据与算法

训练数据集

数据集名称：Kwai-Klear/GoLongRL
样本数量：23,000 条
任务类型数：9 种
数据格式：JSONL 格式（train.jsonl / test.jsonl）

支持算法

GRPO：标准群体相对策略优化，每组内进行优势归一化
TMN-GRPO：在奖励类型组内进行优势归一化，防止高方差任务主导梯度，支持难度重加权

支持模型

Qwen3-4B
Qwen3-30B-A3B（MoE 架构）

评估基准

覆盖 三个能力维度 的 QwenLong-Benchmarks：

评估维度	基准测试
长上下文	LongBench-V2、MRCR（≤128K / 128K–512K / 512K–1M）、Frames、LongBench QA、DocMath、CorpusQA（≤128K / ≤1M）
通用能力	MMLU-Pro、AIME 2024/2025、GPQA-Diamond
记忆能力	BFCL-V4（记忆子集）、LongMemEval

超长评估（最长 100 万 token）采用 YaRN RoPE 缩放。

关键成果

在相同的标准 GRPO 设置下，GoLongRL 数据集在 4B 和 30B 规模上均优于闭源的 QwenLong-L1.5 数据集（4B 平均 +6.1，30B 平均 +2.6）
TMN-Reweight 将 4B 规模的性能进一步提升至平均 63.0，超越使用专用 AEPO 算法的 QwenLong-L1.5（59.4）
GoLongRL-30B-A3B 在长上下文基准上的平均性能达到 69.8，与 DeepSeek-R1-0528（68.7）和 Qwen3-235B-A22B-Thinking（68.5）相当，但使用更小的激活参数预算

引用信息

@misc{lv2026golongrlcapabilityorientedlongcontext, title={GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment}, author={Minxuan Lv and Tiehua Mei and Tanlong Du and Junmin Chen and Zhenpeng Su and Ziyang Chen and Ziqi Wang and Zhennan Wu and Ruotong Pan and jian Liang and Ruiming Tang and Han Li}, year={2026}, eprint={2605.19577}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.19577}, }

搜集汇总

数据集介绍

构建方式

GoLongRL数据集的构建遵循以能力为导向的四阶段流程。首先，研究团队基于长上下文核心能力的系统化分类法，定义了精准检索、理解推理、穷举检索、数值推理、结构化抽取、结构化匹配、分级排序、序列排序与摘要生成等九类任务。继而，针对每一任务类型，精心设计并生成对应的提示与答案样本，并为其配备最自然的评价指标作为奖励函数，例如精确匹配（EM）用于检索类任务，归一化折损累计增益（NDCG）用于排序任务，ROUGE-L用于摘要任务。最终，经过多轮人工审核与自动化校验，形成了包含约2.3万条高质量样本的数据集，确保了任务多样性与奖励信号的精确对齐。

使用方法

使用GoLongRL数据集进行训练时，推荐基于verl框架并采用两种强化学习算法：标准的组相对策略优化（GRPO）与任务混合归一化GRPO。研究者需首先从Hugging Face下载数据集与对应模型权重（如Qwen3-4B或Qwen3-30B-A3B）。随后，配置训练脚本并指定数据路径，运行提供的shell脚本即可启动训练。评估环节则使用QwenLong-Benchmarks套件，覆盖长上下文、通用能力与记忆能力三个维度，支持最长达100万token的超长序列评估，通过简单的命令行调用即可完成全面的性能测评。

背景与挑战

背景概述

在大型语言模型蓬勃发展的浪潮中，长文本处理能力成为衡量模型智能水平的关键维度。然而，现有强化学习方法在长文本场景下往往聚焦于检索路径复杂性，忽视了诸如摘要、排序、结构化推理等多维能力的协同培养。为填补这一空白，快手科技Kwai-Klear团队于2025年联合发布了GoLongRL数据集，由Minxuan Lv等研究人员主导构建。该数据集基于能力导向的构建理念，通过涵盖9种任务类型、23K样本的标注集合，并创新性地引入TMN-Reweight多任务优化方法，旨在实现长文本情境下多种认知能力的对齐与强化。GoLongRL的提出不仅为长文本强化学习提供了标准化的训练基座，更在DocMath、LongBench-V2等六大标杆测试集上展现出超越DeepSeek-R1-0528等前沿模型的性能，显著推动了该领域的发展。

当前挑战

GoLongRL数据集所面对的挑战集中体现在以下方面。首先，从领域问题角度看，传统长文本强化学习方法将摘要、排名、聚合等异质任务目标坍缩为单一二进制奖励信号，导致模型无法获得针对特定能力的直接训练信号，严重制约了模型在复杂长文本场景中的泛化能力。其次，在数据集构建过程中，如何设计覆盖精准检索、数值推理、结构化匹配等9种任务类型的异质奖励函数是一大难题，需确保每种任务的自然评估指标（如EM、F1、NDCG）能被恰当地转化为可验证奖励。此外，训练时不同任务类型的奖励尺度差异剧烈，标准GRPO算法在跨任务优势估计中会产生噪声，GoLongRL提出的TMN-Reweight方法虽能缓解此问题，但任务级归一化与难度自适应权重的平衡仍面临优化挑战，尤其在极难或极简样本上的优势估计可靠性有待进一步提升。

常用场景

经典使用场景

GoLongRL数据集专为长上下文强化学习中的能力导向训练而设计，其经典使用场景聚焦于训练大语言模型在超长文本（如128K至1M tokens）环境下执行多维度复杂任务。该数据集精心构造了23K样本，覆盖精确检索、语义理解、穷举检索、数值推理、结构化抽取与匹配、分级排序、序列排序及摘要生成等九类任务类型。每个任务均搭配其原生评估指标（如精确匹配、F1分数、NDCG等）作为奖励信号，旨在克服传统方法将多样任务目标压缩为单一二进制奖励的弊端，从而为模型在长文本场景下的能力定向强化提供精细化的训练数据支撑。

解决学术问题

该数据集系统性地解决了长上下文强化学习领域三个核心学术难题：其一，现有方法多聚焦于检索路径复杂性（如多跳链条、UUID追踪）而忽略了摘要、排序、聚合与结构化推理等关键能力的直接训练信号，GoLongRL通过能力导向的数据构建填补了这一空白；其二，异质奖励函数在跨任务训练时的尺度对齐问题，其所提出的TMN-Reweight方法通过任务级均值归一化与难度自适应重加权，有效抑制了简单或困难提示带来的噪声，实现了更稳健的优劣估计；其三，提供了完全开源的数据集与训练流水线，为长上下文RL的可复现研究与公平比较奠定了基准。

实际应用

在实际应用中，GoLongRL数据集的部署显著提升了长上下文模型的综合能力，尤其在需要密集聚合与长期记忆的场景中表现突出。例如，在对话记忆评测LongMemEval上，基于该数据集训练的模型取得了13.6个百分点的显著提升；在代理记忆基准测试中也表现出色。该数据集可广泛应用于智能文档分析、法律合同审查、学术论文精读、金融报告摘要生成以及多轮对话系统中的长期上下文维护等工业级场景，为需要处理海量文本信息且依赖精确推理与结构化输出的AI系统提供了可靠的训练资源。

数据集最近研究