adithya7/background-summaries
收藏数据集卡片:事件时间线的背景摘要
数据集详情
数据集描述
生成新闻事件的简洁摘要是一个具有挑战性的自然语言处理任务。虽然记者通常会策划时间线以突出关键子事件,但新接触某个新闻事件的人在了解其历史背景方面面临挑战。该数据集通过引入背景新闻摘要任务来解决这一需求,该任务为每个时间线更新提供相关先前事件的背景摘要。该数据集包括2005年至2014年间14个重大新闻事件的人工标注背景。
- 策划者: Adithya Pratapa, Kevin Small, Markus Dreyer
- 语言: 英语
- 许可证: CC-BY-NC-4.0
数据集来源
- 存储库: https://github.com/amazon-science/background-summaries
- 论文: https://arxiv.org/abs/2310.16197
用途
直接使用
该数据集可用于训练文本摘要系统。训练后的系统能够为新闻更新生成背景(历史上下文)。为了生成背景,系统将过去的新闻更新作为输入。
超出范围的使用
在新闻领域之外,使用该数据集训练的系统可能表现不佳。为避免事实错误,系统生成的摘要应在实际部署前由专家验证。
数据集结构
数据集字段
| 字段 | 名称 | 描述 |
|---|---|---|
| src | 来源 | 所有先前更新的连接字符串。每个更新文本包括发布日期。 |
| z | 指导 | 当前时间步的更新文本。 |
| tgt | 目标 | 当前时间步的背景文本。 |
数据分割
| 分割 | 重大事件 | 来源(时间线数量) | 时间范围 | 更新数量 | 更新长度 | 背景长度 |
|---|---|---|---|---|---|---|
| 训练 | 猪流感 | T17 (3) | 2009 | 21 | 52 | 45 |
| 训练 | 金融危机 | T17 (1) | 2008 | 65 | 115 | 147 |
| 训练 | 伊拉克战争 | T17 (1) | 2005 | 155 | 41 | 162 |
| 验证 | 海地地震 | T17 (1) | 2010 | 11 | 100 | 61 |
| 验证 | 迈克尔·杰克逊去世 | T17 (1) | 2009--2011 | 37 | 36 | 164 |
| 验证 | BP石油泄漏 | T17 (5) | 2010--2012 | 118 | 56 | 219 |
| 测试 | NSA泄密 | SocialTimeline (1) | 2014 | 29 | 45 | 50 |
| 测试 | 加沙冲突 | SocialTimeline (1) | 2014 | 38 | 183 | 263 |
| 测试 | MH370航班失踪 | SocialTimeline (1) | 2014 | 39 | 39 | 127 |
| 测试 | 也门危机 | Crisis (6) | 2011--2012 | 81 | 30 | 125 |
| 测试 | 俄罗斯-乌克兰冲突 | SocialTimeline (3) | 2014 | 86 | 112 | 236 |
| 测试 | 利比亚危机 | T17 (2); Crisis (7) | 2011 | 118 | 38 | 177 |
| 测试 | 埃及危机 | T17 (1); Crisis (4) | 2011--2013 | 129 | 34 | 187 |
| 测试 | 叙利亚危机 | T17 (4); Crisis (5) | 2011--2013 | 164 | 30 | 162 |
数据集创建
策划理由
读者通常难以跟踪复杂的新闻事件。提供足够的背景上下文的背景摘要可以帮助提高读者对新闻更新的理解。该数据集提供了用于背景摘要系统开发和评估的人工标注背景。
源数据
数据收集和处理
该数据集基于三个流行的新闻时间线摘要数据集:Timeline17、Crisis和Social Timeline。
源数据生产者
- Timeline17: 从多个新闻网站编译,涵盖2005年至2013年的9个重大事件的17个时间线。
- Crisis: Timeline17数据集的后续,涵盖4个重大事件的25个时间线,新增一个事件(也门危机)。
- Social Timeline: 从维基百科、纽约时报和BBC编译,涵盖2014年的4个重大事件的6个时间线。
标注
标注过程
时间线最初从多个新闻网站(CNN、BBC、纽约时报等)收集,许多事件有多个时间线。我们使用时间戳将它们合并为一个事件的单一时间线。在合并过程中,我们经常得到每个时间戳有多个更新文本,可能包含重复内容。我们要求标注者首先重写输入更新以去除任何重复内容。每个新闻事件的标注过程包含以下三个步骤:
- 阅读输入时间线以获得事件的高层次理解。
- 对于每个时间步,阅读提供的“粗略”更新摘要。将更新重写为短段落,去除任何重复或先前报告的子事件。
- 按顺序浏览时间线并为每个时间步编写背景摘要。
标注者
我们雇佣了三名专业标注者。对于每个时间线,我们收集三个独立的(重写的)更新和(新的)背景对。
个人和敏感信息
据我们所知,该数据集中没有个人或敏感信息。
偏差、风险和限制
限制
- 个性化背景: 背景摘要对任何新闻读者都有用,但其效用可能因读者对事件的熟悉程度而异。该数据集不包括针对个别读者的定制背景。
- 本地事件: 该数据集仅限于涉及灾难和冲突的全球流行事件。我们将在未来的工作中收集本地事件的背景摘要。
- 新闻文章的背景: 背景摘要也可以直接从新闻文章生成。在该数据集中,我们仅考虑基于过去新闻更新的背景摘要。我们将在未来的工作中扩展到新闻文章。
引用
bibtex @article{pratapa-etal-2023-background, title = {Background Summarization of Event Timelines}, author = {Pratapa, Adithya and Small, Kevin and Dreyer, Markus}, publisher = {EMNLP}, year = {2023}, url = {https://arxiv.org/abs/2310.16197}, }
术语表
- 重大事件: 我们为其构建时间线的关键新闻故事。例如,“埃及危机”、“BP石油泄漏”、“MH 370失踪”是我们数据集中的一些超级事件。
- 时间线: 一系列时间步。时间线中的每个时间步都与一个更新和一个背景摘要相关联。
- 时间步: 事件的日期(
yyyy-mm-dd)。 - 更新: 新闻故事中新内容的简短文本摘要。该文本总结了最新事件,特别是对整体故事重要的事件。
- 背景: 提供当前更新足够历史上下文的简短文本摘要。背景旨在为读者提供新闻故事的快速历史,而无需阅读所有先前的更新。背景应涵盖有助于理解当前更新中描述的事件的过去事件。
数据集卡片作者
Adithya Pratapa, Kevin Small, Markus Dreyer



