Arxiv summarisation dataset

Name: Arxiv summarisation dataset
Creator: Arxiv
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://huggingface.co/AlgorithmicResearchGroup/led_base_16384_arxiv_summarization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Arxiv摘要数据集，包含了用于预训练模型进行抽象摘要的训练样本。此外，该数据集被用于预训练长序列编码器-解码器模型，规模达到了203,037个训练样本，其任务是进行抽象摘要。

This dataset is named the ArXiv Abstract Summarization Dataset. It contains 203,037 training samples for abstractive summarization pre-training of models. Additionally, this dataset is utilized to pre-train long-sequence encoder-decoder models, with its core task being abstractive summarization.

提供机构：

Arxiv

5,000+

优质数据集

54 个

任务类型

进入经典数据集