five

eReverter/cnn_dailymail_extractive

收藏
Hugging Face2023-07-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eReverter/cnn_dailymail_extractive
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个提取版CNN/DailyMail数据集,专注于提取式文本摘要任务。数据集结构与原始数据集相同,但数据表示和标签有所修改,标签表示提取摘要。每个数据条目包含原始新闻文章的句子列表(src)、专业编辑的摘要或摘要(tgt)以及表示每个句子是否属于提取摘要的二进制标签(labels)。该数据集用于训练和评估提取式文本摘要模型,通过预测原文中的哪些句子构成摘要,并提供二进制映射作为参考。

这是一个提取版CNN/DailyMail数据集,专注于提取式文本摘要任务。数据集结构与原始数据集相同,但数据表示和标签有所修改,标签表示提取摘要。每个数据条目包含原始新闻文章的句子列表(src)、专业编辑的摘要或摘要(tgt)以及表示每个句子是否属于提取摘要的二进制标签(labels)。该数据集用于训练和评估提取式文本摘要模型,通过预测原文中的哪些句子构成摘要,并提供二进制映射作为参考。
提供机构:
eReverter
原始信息汇总

数据集概述

数据集特征

  • src: 字符串序列,对应原始新闻文章。
  • tgt: 字符串序列,对应文章的专业编辑亮点或摘要。
  • labels: 整数序列,表示文章中哪些句子属于提取式摘要。

数据集分割

  • test: 包含11490个样本,总大小为53831114字节。
  • train: 包含287113个样本,总大小为1376640992字节。
  • validation: 包含13368个样本,总大小为62200550字节。

数据集大小

  • 下载大小: 857262516字节
  • 数据集大小: 1492672656字节

许可

  • MIT许可

任务类别

  • 摘要生成

语言

  • 英语

大小类别

  • 100K<n<1M

数据架构

  • id: 唯一字符串标识符。
  • src: 字符串列表,每项代表文章的一个句子。
  • tgt: 字符串列表,代表文章的摘要。
  • labels: 布尔值列表,指示每个句子是否属于提取式摘要。

示例数据条目

json { "id": "1", "src": ["This is the first sentence", "This is the second"], "tgt": ["This is one of the highlights"], "labels": [1, 0] }

在此示例中,文章的第一句被选为提取式摘要的一部分(labels中的1表示),而第二句未被选中(labels中的0表示)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作