Reddit TL;DR summarization

Name: Reddit TL;DR summarization
Creator: Hugging Face
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://huggingface.co/datasets/CarperAI/openai_summarize_tldr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了117,000个样本的SFT数据集，用于训练和测试，同时还包含了93,000个人类偏好样本，这些样本用于奖励模型的训练。SFT数据集和偏好数据集均用于训练和评估摘要模型。具体规模上，SFT数据集有117,000个样本，而人类偏好样本则有93,000个，任务主要集中在摘要方面。

This dataset comprises an SFT dataset with 117,000 samples intended for model training and testing, alongside 93,000 human preference samples designed for reward model training. Both the SFT dataset and the human preference dataset are utilized for training and evaluating summarization models. Regarding dataset scales, the SFT dataset contains 117,000 samples whereas the human preference dataset has 93,000 samples, with the core tasks centered on summarization.

提供机构：

Hugging Face

5,000+

优质数据集

54 个

任务类型

进入经典数据集