five

adithya7/background-summaries

收藏
Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adithya7/background-summaries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供新闻事件时间线的背景文本摘要,旨在通过为每个时间线更新补充相关先前事件的背景摘要,帮助新读者理解复杂的新闻事件。数据集包含2005年至2014年间14个重大新闻事件的人工标注背景,适用于训练文本摘要系统,以生成新闻更新的背景(历史背景)信息。

该数据集提供新闻事件时间线的背景文本摘要,旨在通过为每个时间线更新补充相关先前事件的背景摘要,帮助新读者理解复杂的新闻事件。数据集包含2005年至2014年间14个重大新闻事件的人工标注背景,适用于训练文本摘要系统,以生成新闻更新的背景(历史背景)信息。
提供机构:
adithya7
原始信息汇总

数据集卡片:事件时间线的背景摘要

数据集详情

数据集描述

生成新闻事件的简洁摘要是一个具有挑战性的自然语言处理任务。虽然记者通常会策划时间线以突出关键子事件,但新接触某个新闻事件的人在了解其历史背景方面面临挑战。该数据集通过引入背景新闻摘要任务来解决这一需求,该任务为每个时间线更新提供相关先前事件的背景摘要。该数据集包括2005年至2014年间14个重大新闻事件的人工标注背景。

  • 策划者: Adithya Pratapa, Kevin Small, Markus Dreyer
  • 语言: 英语
  • 许可证: CC-BY-NC-4.0

数据集来源

  • 存储库: https://github.com/amazon-science/background-summaries
  • 论文: https://arxiv.org/abs/2310.16197

用途

直接使用

该数据集可用于训练文本摘要系统。训练后的系统能够为新闻更新生成背景(历史上下文)。为了生成背景,系统将过去的新闻更新作为输入。

超出范围的使用

在新闻领域之外,使用该数据集训练的系统可能表现不佳。为避免事实错误,系统生成的摘要应在实际部署前由专家验证。

数据集结构

数据集字段

字段 名称 描述
src 来源 所有先前更新的连接字符串。每个更新文本包括发布日期。
z 指导 当前时间步的更新文本。
tgt 目标 当前时间步的背景文本。

数据分割

分割 重大事件 来源(时间线数量) 时间范围 更新数量 更新长度 背景长度
训练 猪流感 T17 (3) 2009 21 52 45
训练 金融危机 T17 (1) 2008 65 115 147
训练 伊拉克战争 T17 (1) 2005 155 41 162
验证 海地地震 T17 (1) 2010 11 100 61
验证 迈克尔·杰克逊去世 T17 (1) 2009--2011 37 36 164
验证 BP石油泄漏 T17 (5) 2010--2012 118 56 219
测试 NSA泄密 SocialTimeline (1) 2014 29 45 50
测试 加沙冲突 SocialTimeline (1) 2014 38 183 263
测试 MH370航班失踪 SocialTimeline (1) 2014 39 39 127
测试 也门危机 Crisis (6) 2011--2012 81 30 125
测试 俄罗斯-乌克兰冲突 SocialTimeline (3) 2014 86 112 236
测试 利比亚危机 T17 (2); Crisis (7) 2011 118 38 177
测试 埃及危机 T17 (1); Crisis (4) 2011--2013 129 34 187
测试 叙利亚危机 T17 (4); Crisis (5) 2011--2013 164 30 162

数据集创建

策划理由

读者通常难以跟踪复杂的新闻事件。提供足够的背景上下文的背景摘要可以帮助提高读者对新闻更新的理解。该数据集提供了用于背景摘要系统开发和评估的人工标注背景。

源数据

数据收集和处理

该数据集基于三个流行的新闻时间线摘要数据集:Timeline17、Crisis和Social Timeline。

源数据生产者

  • Timeline17: 从多个新闻网站编译,涵盖2005年至2013年的9个重大事件的17个时间线。
  • Crisis: Timeline17数据集的后续,涵盖4个重大事件的25个时间线,新增一个事件(也门危机)。
  • Social Timeline: 从维基百科、纽约时报和BBC编译,涵盖2014年的4个重大事件的6个时间线。

标注

标注过程

时间线最初从多个新闻网站(CNN、BBC、纽约时报等)收集,许多事件有多个时间线。我们使用时间戳将它们合并为一个事件的单一时间线。在合并过程中,我们经常得到每个时间戳有多个更新文本,可能包含重复内容。我们要求标注者首先重写输入更新以去除任何重复内容。每个新闻事件的标注过程包含以下三个步骤:

  1. 阅读输入时间线以获得事件的高层次理解。
  2. 对于每个时间步,阅读提供的“粗略”更新摘要。将更新重写为短段落,去除任何重复或先前报告的子事件。
  3. 按顺序浏览时间线并为每个时间步编写背景摘要。

标注者

我们雇佣了三名专业标注者。对于每个时间线,我们收集三个独立的(重写的)更新和(新的)背景对。

个人和敏感信息

据我们所知,该数据集中没有个人或敏感信息。

偏差、风险和限制

限制

  • 个性化背景: 背景摘要对任何新闻读者都有用,但其效用可能因读者对事件的熟悉程度而异。该数据集不包括针对个别读者的定制背景。
  • 本地事件: 该数据集仅限于涉及灾难和冲突的全球流行事件。我们将在未来的工作中收集本地事件的背景摘要。
  • 新闻文章的背景: 背景摘要也可以直接从新闻文章生成。在该数据集中,我们仅考虑基于过去新闻更新的背景摘要。我们将在未来的工作中扩展到新闻文章。

引用

bibtex @article{pratapa-etal-2023-background, title = {Background Summarization of Event Timelines}, author = {Pratapa, Adithya and Small, Kevin and Dreyer, Markus}, publisher = {EMNLP}, year = {2023}, url = {https://arxiv.org/abs/2310.16197}, }

术语表

  • 重大事件: 我们为其构建时间线的关键新闻故事。例如,“埃及危机”、“BP石油泄漏”、“MH 370失踪”是我们数据集中的一些超级事件。
  • 时间线: 一系列时间步。时间线中的每个时间步都与一个更新和一个背景摘要相关联。
  • 时间步: 事件的日期(yyyy-mm-dd)。
  • 更新: 新闻故事中新内容的简短文本摘要。该文本总结了最新事件,特别是对整体故事重要的事件。
  • 背景: 提供当前更新足够历史上下文的简短文本摘要。背景旨在为读者提供新闻故事的快速历史,而无需阅读所有先前的更新。背景应涵盖有助于理解当前更新中描述的事件的过去事件。

数据集卡片作者

Adithya Pratapa, Kevin Small, Markus Dreyer

数据集卡片联系

Adithya Pratapa

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作