eReverter/cnn_dailymail_extractive

Name: eReverter/cnn_dailymail_extractive
Creator: eReverter
Published: 2023-07-19 18:45:02
License: 暂无描述

Hugging Face2023-07-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eReverter/cnn_dailymail_extractive

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个提取版CNN/DailyMail数据集，专注于提取式文本摘要任务。数据集结构与原始数据集相同，但数据表示和标签有所修改，标签表示提取摘要。每个数据条目包含原始新闻文章的句子列表（src）、专业编辑的摘要或摘要（tgt）以及表示每个句子是否属于提取摘要的二进制标签（labels）。该数据集用于训练和评估提取式文本摘要模型，通过预测原文中的哪些句子构成摘要，并提供二进制映射作为参考。

提供机构：

eReverter

原始信息汇总

数据集概述

数据集特征

src: 字符串序列，对应原始新闻文章。
tgt: 字符串序列，对应文章的专业编辑亮点或摘要。
labels: 整数序列，表示文章中哪些句子属于提取式摘要。

数据集分割

test: 包含11490个样本，总大小为53831114字节。
train: 包含287113个样本，总大小为1376640992字节。
validation: 包含13368个样本，总大小为62200550字节。

数据集大小

下载大小: 857262516字节
数据集大小: 1492672656字节

许可

MIT许可

任务类别

摘要生成

语言

英语

大小类别

100K<n<1M

数据架构

id: 唯一字符串标识符。
src: 字符串列表，每项代表文章的一个句子。
tgt: 字符串列表，代表文章的摘要。
labels: 布尔值列表，指示每个句子是否属于提取式摘要。

示例数据条目

json { "id": "1", "src": ["This is the first sentence", "This is the second"], "tgt": ["This is one of the highlights"], "labels": [1, 0] }

在此示例中，文章的第一句被选为提取式摘要的一部分（labels中的1表示），而第二句未被选中（labels中的0表示）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集