eReverter/cnn_dailymail_extractive
收藏Hugging Face2023-07-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eReverter/cnn_dailymail_extractive
下载链接
链接失效反馈官方服务:
资源简介:
这是一个提取版CNN/DailyMail数据集,专注于提取式文本摘要任务。数据集结构与原始数据集相同,但数据表示和标签有所修改,标签表示提取摘要。每个数据条目包含原始新闻文章的句子列表(src)、专业编辑的摘要或摘要(tgt)以及表示每个句子是否属于提取摘要的二进制标签(labels)。该数据集用于训练和评估提取式文本摘要模型,通过预测原文中的哪些句子构成摘要,并提供二进制映射作为参考。
这是一个提取版CNN/DailyMail数据集,专注于提取式文本摘要任务。数据集结构与原始数据集相同,但数据表示和标签有所修改,标签表示提取摘要。每个数据条目包含原始新闻文章的句子列表(src)、专业编辑的摘要或摘要(tgt)以及表示每个句子是否属于提取摘要的二进制标签(labels)。该数据集用于训练和评估提取式文本摘要模型,通过预测原文中的哪些句子构成摘要,并提供二进制映射作为参考。
提供机构:
eReverter
原始信息汇总
数据集概述
数据集特征
- src: 字符串序列,对应原始新闻文章。
- tgt: 字符串序列,对应文章的专业编辑亮点或摘要。
- labels: 整数序列,表示文章中哪些句子属于提取式摘要。
数据集分割
- test: 包含11490个样本,总大小为53831114字节。
- train: 包含287113个样本,总大小为1376640992字节。
- validation: 包含13368个样本,总大小为62200550字节。
数据集大小
- 下载大小: 857262516字节
- 数据集大小: 1492672656字节
许可
- MIT许可
任务类别
- 摘要生成
语言
- 英语
大小类别
- 100K<n<1M
数据架构
- id: 唯一字符串标识符。
- src: 字符串列表,每项代表文章的一个句子。
- tgt: 字符串列表,代表文章的摘要。
- labels: 布尔值列表,指示每个句子是否属于提取式摘要。
示例数据条目
json { "id": "1", "src": ["This is the first sentence", "This is the second"], "tgt": ["This is one of the highlights"], "labels": [1, 0] }
在此示例中,文章的第一句被选为提取式摘要的一部分(labels中的1表示),而第二句未被选中(labels中的0表示)。



