five

LongReward-10k

收藏
Hugging Face2024-10-29 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/THUDM/LongReward-10k
下载链接
链接失效反馈
官方服务:
资源简介:
LongReward-10k数据集包含10,000个长上下文问答实例,涵盖英语和中文,每个实例最多可达64,000字。数据集分为三个部分:sft、dpo_glm4_9b和dpo_llama3.1_8b。sft部分包含通过GLM-4-0520模型生成的SFT数据,用于监督微调两个模型:LongReward-glm4-9b-SFT和LongReward-llama3.1-8b-SFT。dpo_glm4_9b和dpo_llama3.1_8b部分是长上下文偏好数据集,用于训练DPO模型:LongReward-glm4-9b-DPO和LongReward-llama3.1-8b-DPO。这些模型基于相应的SFT模型和LongReward方法进行训练。

The LongReward-10k dataset consists of 10,000 long-context question-answering instances covering both English and Chinese, with each instance containing up to 64,000 words. The dataset is divided into three splits: sft, dpo_glm4_9b, and dpo_llama3.1_8b. The sft split contains SFT data generated by the GLM-4-0520 model, which is used for supervised fine-tuning of two models: LongReward-glm4-9b-SFT and LongReward-llama3.1-8b-SFT. The dpo_glm4_9b and dpo_llama3.1_8b splits are long-context preference datasets used for training DPO models: LongReward-glm4-9b-DPO and LongReward-llama3.1-8b-DPO. All these models are trained based on their corresponding SFT models and the LongReward method.
提供机构:
Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
创建时间:
2024-10-17
原始信息汇总

LongReward-10k

概述

  • 数据集名称: LongReward-10k
  • 许可协议: Apache 2.0
  • 任务类别: 文本生成
  • 语言: 英语、中文
  • 标签: 长上下文、大语言模型、RLAIF
  • 数据规模: 1K<n<10K

数据集详情

  • 数据文件:
    • sft: sft.jsonl
    • dpo_glm4_9b: dpo-glm4-9b.jsonl
    • dpo_llama3.1_8b: dpo-llama3.1-8b.jsonl

数据集描述

  • LongReward-10k 包含10,000个长上下文问答实例(英语和中文,最长可达64,000字)。
  • sft 分割包含由 GLM-4-0520 生成的SFT数据,遵循 LongAlign 中的自指导方法。
  • dpo_glm4_9bdpo_llama3.1_8b 分割是长上下文偏好数据集,其中获胜和失败的响应从相应的SFT模型中采样,并由 LongReward 方法排名。

相关模型

  • LongReward-glm4-9b-SFT: 基于 GLM-4-9B 训练。
  • LongReward-llama3.1-8b-SFT: 基于 Meta-Llama-3.1-8B 训练。
  • LongReward-glm4-9b-DPO: 基于 dpo_glm4_9b 分割训练。
  • LongReward-llama3.1-8b-DPO: 基于 dpo_llama3.1_8b 分割训练。

引用

@article{zhang2024longreward, title = {LongReward: Improving Long-context Large Language Models with AI Feedback}, author = {Jiajie Zhang and Zhongni Hou and Xin Lv and Shulin Cao and Zhenyu Hou and Yilin Niu and Lei Hou and Yuxiao Dong and Ling Feng and Juanzi Li}, journal = {arXiv preprint arXiv:2410.21252}, year = {2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
LongReward-10k数据集的构建基于自指导方法,通过GLM-4-0520模型生成监督微调(SFT)数据,并采用LongAlign框架进行优化。该数据集包含10,000个长上下文问答实例,涵盖英语和中文,最大长度可达64,000词。此外,通过LongReward方法对SFT模型的输出进行排序,生成了偏好数据集(DPO),用于训练基于SFT检查点的DPO模型。
特点
LongReward-10k数据集以其大规模的长上下文问答实例为显著特点,支持多语言(英语和中文)处理,且上下文长度可达64,000词。数据集分为SFT和DPO两个部分,分别用于监督微调和偏好学习。通过LongReward方法生成的偏好数据集,能够有效提升模型在长上下文任务中的表现,为长上下文大语言模型的优化提供了重要支持。
使用方法
LongReward-10k数据集的使用主要分为两个阶段:首先,利用SFT部分的数据对模型进行监督微调,生成基础模型;其次,通过DPO部分的偏好数据集,进一步优化模型性能。用户可以根据需求选择不同的模型版本,如基于GLM-4-9B或Meta-Llama-3.1-8B的SFT和DPO模型。具体使用方法可参考HuggingFace上的模型仓库和相关的技术文档。
背景与挑战
背景概述
LongReward-10k数据集由清华大学的研究团队于2024年发布,旨在提升长上下文大语言模型(LLM)的性能。该数据集包含10,000个长上下文问答实例,涵盖英文和中文,最大长度可达64,000词。数据集的核心研究问题是通过监督微调(SFT)和基于AI反馈的偏好优化(DPO)方法,提升模型在长上下文任务中的表现。研究团队基于GLM-4-9B和Meta-Llama-3.1-8B模型,生成了SFT和DPO数据,并发布了多个微调模型。该数据集对长上下文理解和生成任务具有重要影响,为相关领域的研究提供了高质量的数据支持。
当前挑战
LongReward-10k数据集在构建和应用过程中面临多重挑战。首先,长上下文数据的生成和处理需要极高的计算资源和时间成本,尤其是在生成64,000词的长文本时,如何确保数据的多样性和质量成为关键问题。其次,基于AI反馈的偏好优化(DPO)方法需要精确的模型响应排序机制,这对算法的设计和实现提出了较高要求。此外,长上下文任务的评估标准尚未完全统一,如何客观衡量模型在长文本生成和理解任务中的表现仍需进一步探索。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和优化提出了更高的技术门槛。
常用场景
经典使用场景
LongReward-10k数据集在长上下文问答任务中展现了其独特的价值。该数据集包含10,000个长上下文问答实例,支持中英双语,上下文长度可达64,000词。通过其`sft`和`dpo`分割,研究人员能够对基于GLM-4-9B和Meta-Llama-3.1-8B的模型进行监督微调和偏好对齐训练,从而提升模型在长上下文理解与生成任务中的表现。
解决学术问题
LongReward-10k数据集有效解决了长上下文大语言模型在生成和理解任务中的挑战。通过提供高质量的长上下文问答数据,该数据集帮助研究人员训练和评估模型在复杂语境下的表现。其提出的LongReward方法进一步优化了模型的偏好对齐,显著提升了模型在长文本生成任务中的准确性和连贯性,为大语言模型的长上下文处理能力提供了新的研究思路。
衍生相关工作
LongReward-10k数据集衍生了一系列经典工作,包括基于GLM-4-9B和Meta-Llama-3.1-8B的监督微调模型(如LongReward-glm4-9b-SFT和LongReward-llama3.1-8b-SFT)以及偏好对齐模型(如LongReward-glm4-9b-DPO和LongReward-llama3.1-8b-DPO)。这些模型在长上下文生成任务中表现出色,为后续研究提供了重要的参考和基线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作