five

SciTLDR

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/allenai/scitldr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了5.4千份文本摘要,这些摘要覆盖了3.2千篇论文,其中既有作者亲自撰写的简述,也有专家提炼的“太长不读”(TLDR)版本。这些数据是采用一种新颖的注释协议收集而成的,旨在最小化注释工作负担的同时,产出高质量的摘要。该数据集的任务是进行抽象式摘要。

This dataset consists of 5.4 thousand text summaries spanning 3,200 academic papers. These summaries include both concise descriptions written by the authors themselves and TLDR versions refined by domain experts. The dataset was collected via a novel annotation protocol that aims to minimize the annotation workload while producing high-quality summaries. The task supported by this dataset is abstractive summarization.
提供机构:
Open-sourced LLMs community
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作