five

allenai/scitldr

收藏
Hugging Face2023-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/scitldr
下载链接
链接失效反馈
官方服务:
资源简介:
SciTLDR是一个用于科学文档极端摘要的多目标数据集,包含5.4K个TLDR(Too Long; Didnt Read)摘要,覆盖3.2K篇论文。数据集包含作者撰写的和专家导出的TLDR,后者通过一种新颖的注释协议收集,以最小化注释负担的同时生成高质量的摘要。数据集支持的任务是摘要生成,语言为英语。数据集结构包括训练集、验证集和测试集,数据字段包括源文本、源标签、预计算的ROUGE分数、论文ID、目标摘要和论文标题。

SciTLDR is a multi-target dataset for extreme summarization of scientific documents, containing 5.4K TLDR (Too Long; Didn't Read) summaries covering 3.2K papers. The dataset includes TLDRs written by authors and expert-derived ones. The expert-derived TLDRs are collected via a novel annotation protocol that minimizes annotation burden while generating high-quality summaries. The task supported by this dataset is summarization, with the language being English. The dataset is structured into training, validation, and test sets, with its data fields including source text, source label, pre-computed ROUGE scores, paper ID, target summary, and paper title.
提供机构:
allenai
原始信息汇总

数据集概述

名称: SciTLDR

语言: 英语

许可: 未知

多语言性: 单语

大小: 1K<n<10K

来源: 原始数据

任务类别: 摘要生成

标签: 科学文档摘要

数据集结构

配置

  • Abstract: 包含摘要信息
  • AIC: 包含摘要、介绍和结论信息
  • FullText: 包含完整文本信息

特征

  • source: 字符串序列,包含论文的摘要、介绍和结论或完整文本
  • source_labels: 序列,包含二进制标签,指示是否为关键句子
  • rouge_scores: 浮点数序列,预计算的ROUGE分数
  • paper_id: 字符串,论文ID
  • target: 字符串序列,包含多个摘要

数据分割

  • train: 训练集,1992个样本
  • test: 测试集,618个样本
  • validation: 验证集,619个样本

大小

  • Abstract: 训练集2738065字节,测试集1073656字节,验证集994876字节
  • AIC: 训练集14473822字节,测试集4822026字节,验证集4476237字节
  • FullText: 训练集66917363字节,测试集20182554字节,验证集18790651字节

数据实例

  • source: 论文句子序列
  • source_labels: 二进制标签序列
  • rouge_scores: 预计算的ROUGE分数序列
  • paper_id: 论文ID
  • target: 摘要序列
  • title: 论文标题
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作