knkarthick/xsum
收藏Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/knkarthick/xsum
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- expert-generated
language_creators:
- expert-generated
language:
- en
license:
- cc-by-nc-nd-4.0
multilinguality:
- monolingual
size_categories:
- 100K<n<1M
source_datasets:
- original
task_categories:
- summarization
- text2text-generation
- text-generation
task_ids: []
paperswithcode_id: samsum-corpus
pretty_name: XSum Corpus
tags:
- conversations-summarization
---
# Dataset Card for SAMSum Corpus
## Dataset Description
### Links
- **Homepage:** https://arxiv.org/abs/1808.08745
- **Repository:** https://arxiv.org/abs/1808.08745
- **Paper:** https://arxiv.org/abs/1808.08745
- **Point of Contact:** https://huggingface.co/knkarthick
### Dataset Summary
This repository contains data and code for our EMNLP 2018 paper "[Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization](https://arxiv.org/abs/1808.08745)".
### Languages
English
## Dataset Structure
### Data Instances
XSum dataset is made of 226711 conversations split into train, test and val.
The first instance in the training set:
{'dialogue': 'The full cost of damage in Newton Stewart, one of the areas worst affected, is still being assessed.\nRepair work is ongoing in Hawick and many roads in Peeblesshire remain badly affected by standing water.\nTrains on the west coast mainline face disruption due to damage at the Lamington Viaduct.\nMany businesses and householders were affected by flooding in Newton Stewart after the River Cree overflowed into the town.\nFirst Minister Nicola Sturgeon visited the area to inspect the damage.\nThe waters breached a retaining wall, flooding many commercial properties on Victoria Street - the main shopping thoroughfare.\nJeanette Tate, who owns the Cinnamon Cafe which was badly affected, said she could not fault the multi-agency response once the flood hit.\nHowever, she said more preventative work could have been carried out to ensure the retaining wall did not fail.\n"It is difficult but I do think there is so much publicity for Dumfries and the Nith - and I totally appreciate that - but it is almost like we\'re neglected or forgotten," she said.\n"That may not be true but it is perhaps my perspective over the last few days.\n"Why were you not ready to help us a bit more when the warning and the alarm alerts had gone out?"\nMeanwhile, a flood alert remains in place across the Borders because of the constant rain.\nPeebles was badly hit by problems, sparking calls to introduce more defences in the area.\nScottish Borders Council has put a list on its website of the roads worst affected and drivers have been urged not to ignore closure signs.\nThe Labour Party\'s deputy Scottish leader Alex Rowley was in Hawick on Monday to see the situation first hand.\nHe said it was important to get the flood protection plan right but backed calls to speed up the process.\n"I was quite taken aback by the amount of damage that has been done," he said.\n"Obviously it is heart-breaking for people who have been forced out of their homes and the impact on businesses."\nHe said it was important that "immediate steps" were taken to protect the areas most vulnerable and a clear timetable put in place for flood prevention plans.\nHave you been affected by flooding in Dumfries and Galloway or the Borders? Tell us about your experience of the situation and how it was handled. Email us on selkirk.news@bbc.co.uk or dumfries@bbc.co.uk.', 'summary': 'Clean-up operations are continuing across the Scottish Borders and Dumfries and Galloway after flooding caused by Storm Frank.',
'id': '35232142'}
### Data Fields
- dialogue: text of dialogue.
- summary: one line human written summary of the dialogue.
- id: unique file id of an example.
### Data Splits
- train: 204045
- val: 11332
- test: 11334
## Dataset Creation
### Curation Rationale
### Who are the source language producers?
linguists
### Who are the annotators?
language experts
### Annotation process
## Licensing Information
non-commercial licence: MIT
## Citation Information
```
@InProceedings{xsum-emnlp,
author = "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
title = "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
year = "2018",
address = "Brussels, Belgium",
```
## Contributions
Thanks to [@Edinburgh NLP](https://github.com/EdinburghNLP) for adding this dataset.
annotations_creators:
- 专家生成
language_creators:
- 专家生成
language:
- 英语(en)
license:
- CC BY-NC-ND 4.0(知识共享署名-非商业性使用-禁止演绎4.0国际许可协议)
multilinguality:
- 单语言
size_categories:
- 10万 < 样本数 < 100万
source_datasets:
- 原创数据集
task_categories:
- 摘要生成
- 文本到文本生成
- 文本生成
task_ids: []
paperswithcode_id: samsum-corpus
pretty_name: XSum语料库(XSum Corpus)
tags:
- 对话摘要生成
---
# SAMSum语料库数据集卡片
## 数据集说明
### 相关链接
- **主页:** https://arxiv.org/abs/1808.08745
- **代码仓库:** https://arxiv.org/abs/1808.08745
- **相关论文:** https://arxiv.org/abs/1808.08745
- **联系方式:** https://huggingface.co/knkarthick
### 数据集概述
本仓库包含我们发表于2018年自然语言处理经验方法会议(EMNLP)的论文《"不要给我细节,只需摘要!面向极端摘要的主题感知卷积神经网络"》(https://arxiv.org/abs/1808.08745)对应的数据集与代码。
### 语言说明
英语
## 数据集结构
### 数据实例
XSum语料库共包含226711条对话数据,划分为训练集、测试集与验证集。
训练集的第一条实例如下:
{
"dialogue": "牛顿斯图尔特(受影响最严重的地区之一)的全部损失成本仍在评估中。
霍伊克的修复工作正在进行中,皮布尔斯郡的多条道路仍因积水受到严重影响。
由于拉明顿高架桥受损,西海岸干线的列车面临延误。
克里河泛滥涌入牛顿斯图尔特后,许多企业和住户受到洪水影响。
苏格兰首席大臣尼古拉·斯特金视察了该地区的受灾情况。
洪水冲垮了一道护墙,淹没了维多利亚街(主要购物商业街)上的多处商业物业。
经营受严重影响的肉桂咖啡馆的珍妮特·塔特表示,洪水发生后多机构的应急响应无可挑剔。
不过她指出,本可以开展更多预防性工作,以避免护墙坍塌。
"情况很艰难,但我确实认为,人们对邓弗里斯和尼思的关注度太高了——我完全理解这一点——但我们几乎像是被忽视或遗忘了,"她说。
"这可能不是事实,但这或许是我过去几天的看法。
"当预警和警报发出时,你们为什么没有准备好多提供一些帮助?"
与此同时,由于持续降雨,边境地区仍处于洪水预警状态。
皮布尔斯受灾严重,引发了在该地区引入更多防洪设施的呼吁。
苏格兰边境委员会已在其网站上列出了受灾最严重的道路,敦促司机切勿忽视封闭标志。
工党苏格兰副领袖亚历克斯·罗利周一前往霍伊克实地查看情况。
他表示,制定合适的防洪计划至关重要,但支持加快该进程的呼吁。
"我对造成的破坏程度感到相当震惊,"他说。
"对于被迫离家的人们以及对企业造成的影响,这显然令人心碎。"
他表示,"立即采取措施"保护最脆弱地区,并制定清晰的防洪计划时间表至关重要。
您是否在邓弗里斯和加洛韦或边境地区遭受过洪水影响?请分享您对该情况的经历以及应对过程。请发送邮件至selkirk.news@bbc.co.uk或dumfries@bbc.co.uk与我们联系。",
"summary": "风暴弗兰克引发洪水后,苏格兰边境地区和邓弗里斯与加洛韦的清理工作仍在继续。",
"id": "35232142"
}
### 数据字段
- dialogue:对话文本内容。
- summary:人工撰写的单句对话摘要。
- id:数据样本的唯一文件标识符。
### 数据划分
- 训练集(train):204045条
- 验证集(val):11332条
- 测试集(test):11334条
## 数据集构建
### 筛选依据
无公开说明
### 原始语言内容创作者:
语言学家
### 标注人员:
语言专家
### 标注流程:
无公开说明
## 许可信息
非商业性许可:MIT许可证
## 引用信息
@InProceedings{xsum-emnlp,
author = "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
title = "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
year = "2018",
address = "Brussels, Belgium",
## 贡献致谢
感谢[@爱丁堡自然语言处理组](https://github.com/EdinburghNLP) 为本数据集添加至平台。
提供机构:
knkarthick
原始信息汇总
数据集概述
基本信息
- 名称: XSum Corpus
- 别名: SAMSum Corpus
- 语言: 英语
- 许可证: CC-BY-NC-ND-4.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 数据来源: 原创
任务类别
- 摘要生成
- 文本到文本生成
- 文本生成
数据集结构
- 数据实例: 包含226711个对话,分为训练集、验证集和测试集。
- 数据字段:
- dialogue: 对话文本
- summary: 对话的人工编写摘要
- id: 实例的唯一文件ID
- 数据分割:
- 训练集: 204045
- 验证集: 11332
- 测试集: 11334
数据集创建
- 语言生产者: 语言学家
- 注释者: 语言专家
- 许可证信息: 非商业许可证: MIT
引用信息
@InProceedings{xsum-emnlp, author = "Shashi Narayan and Shay B. Cohen and Mirella Lapata", title = "Dont Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ", year = "2018", address = "Brussels, Belgium",
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,极端摘要任务要求模型从冗长文本中提炼出高度凝练的单句摘要。XSum数据集的构建过程体现了严谨的学术规范,其语料源自英国广播公司(BBC)的在线新闻报道,由语言专家精心筛选与整理。构建团队从海量新闻文章中提取出正文部分作为源文本,并邀请专业语言学家为每篇正文撰写一句高度概括的摘要,这一过程确保了摘要与原文在主题上高度一致,同时剥离了冗余细节,形成了规模超过22万条的高质量对话式摘要对。
使用方法
该数据集主要用于训练和评估极端文本摘要生成模型。研究人员可加载其标准化的训练、验证和测试分割,利用对话文本作为模型输入,对应的单句摘要作为训练目标或评估基准。在模型开发阶段,可通过微调预训练语言模型(如BART、T5)在此数据集上进行序列到序列学习。评估时,通常使用ROUGE等自动指标将模型生成的摘要与人工撰写的参考摘要进行对比,以衡量摘要的信息覆盖度和简洁性。其非商业许可(CC-BY-NC-ND 4.0)要求使用者注意合规使用范畴。
背景与挑战
背景概述
在自然语言处理领域,文本摘要技术旨在从冗长文档中提取核心信息,生成简洁的摘要。XSum数据集由爱丁堡大学的研究团队于2018年创建,其核心研究问题聚焦于极端摘要任务,即生成高度凝练的单句摘要,而非传统摘要中的多句概述。该数据集基于英国广播公司的新闻报道构建,涵盖了超过22万条对话及其对应的人工撰写摘要,为摘要模型的训练与评估提供了大规模、高质量的语料资源。XSum的推出显著推动了摘要生成技术向更极端、更抽象的方向发展,对机器理解与生成自然语言的能力提出了更高要求,成为该领域的重要基准之一。
当前挑战
XSum数据集所解决的领域问题是极端摘要生成,其挑战在于模型需从长篇文本中捕捉核心主题,并生成高度抽象且信息完整的单句摘要,这对模型的语义理解与生成能力构成严峻考验。在构建过程中,数据采集依赖于专业语言学家的人工标注,确保摘要的准确性与流畅性,但这一过程耗时耗力,且可能引入主观偏差。此外,数据集的非商业许可限制了其在工业场景的广泛应用,而对话文本的多样性与复杂性也增加了模型泛化的难度,要求后续研究在效率与性能间寻求平衡。
常用场景
经典使用场景
在自然语言处理领域,文本摘要任务旨在从冗长文档中提取核心信息,而XSum数据集以其极端摘要特性脱颖而出。该数据集广泛应用于训练和评估抽象式摘要模型,其经典使用场景包括基于深度学习的序列到序列架构,如Transformer模型,通过输入新闻文章生成单句摘要,以验证模型在高度压缩信息时的语义保持能力。研究者常利用XSum测试模型在保留原文主题与关键事实方面的性能,推动摘要技术向更精准、简洁的方向发展。
解决学术问题
XSum数据集主要解决了极端摘要中的学术挑战,即如何在极度压缩文本长度的情况下,仍能准确捕捉原文的核心主题与事实性内容。它帮助研究者探索抽象式摘要的界限,例如处理信息冗余、消除细节偏差以及提升生成摘要的连贯性。该数据集的意义在于为摘要任务设定了新的基准,促进了对抗生成网络、注意力机制等前沿方法在信息浓缩中的应用,对自然语言生成领域的理论进展产生了深远影响。
实际应用
在实际应用中,XSum数据集支持新闻媒体、内容聚合平台及智能助手等场景的自动化摘要生成。例如,新闻机构可利用基于XSum训练的模型快速为长篇报道生成标题式摘要,提升信息传播效率;在教育领域,它辅助学生或研究人员快速获取文献要点。这些应用不仅优化了信息处理流程,还降低了人工摘要的成本,体现了自然语言处理技术在现实世界中的实用价值。
数据集最近研究
最新研究方向
在自然语言处理领域,XSum数据集作为极端摘要任务的基准,持续推动着文本生成技术的前沿探索。当前研究聚焦于提升模型在生成高度凝练摘要时的忠实性与信息密度,通过引入对比学习与强化学习策略,优化生成内容的语义一致性与事实准确性。随着大语言模型的兴起,该数据集被广泛应用于评估模型在零样本与少样本场景下的摘要能力,相关研究亦关注跨领域迁移与多模态融合,以应对新闻、对话等复杂语境下的摘要挑战。这些进展不仅深化了对抽象摘要机制的理解,也为信息压缩与知识蒸馏等应用提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



