five

XSum|文本摘要数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
文本摘要
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/XSum
下载链接
链接失效反馈
资源简介:
Extreme Summarization (XSum) 数据集是用于评估抽象单文档摘要系统的数据集。目标是创建一个简短的、一句话的新摘要来回答“这篇文章是关于什么的?”这个问题。该数据集由 226,711 篇新闻文章组成,并附有一句话摘要。这些文章收集自 BBC 文章(2010 年至 2017 年),涵盖了广泛的领域(例如,新闻、政治、体育、天气、商业、技术、科学、健康、家庭、教育、娱乐和艺术)。官方随机拆分分别包含训练、验证和测试集中的 204,045 (90%)、11,332 (5%) 和 11,334 (5) 个文档。
提供机构:
OpenDataLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
XSum数据集的构建基于从英国广播公司(BBC)网站上收集的大量新闻文章。这些文章涵盖了广泛的主题,从政治到科技,从体育到娱乐。数据集的构建过程包括自动化的文本抓取、预处理和摘要生成。首先,通过网络爬虫技术从BBC网站上获取原始新闻文章。随后,对这些文章进行清洗和标准化处理,去除无关信息和格式化问题。最后,利用先进的自然语言处理技术,为每篇文章生成一个简洁的单句摘要,以捕捉文章的核心内容。
特点
XSum数据集以其独特的单句摘要特点而著称,这种设计旨在提供一个简洁且信息丰富的概述,帮助用户快速理解文章的主旨。此外,数据集包含了多样化的主题和领域,确保了其广泛的应用范围。数据集的规模庞大,包含超过20万篇文章及其对应的摘要,为研究者和开发者提供了丰富的资源。其高质量的摘要生成方法和严格的预处理流程,使得XSum成为自然语言处理领域中摘要生成任务的重要基准数据集。
使用方法
XSum数据集主要用于训练和评估自动文本摘要系统。研究者和开发者可以利用该数据集来训练模型,以生成高质量的单句摘要。通过对比模型生成的摘要与数据集中提供的参考摘要,可以评估模型的性能。此外,XSum还可以用于研究不同主题和领域的摘要生成效果,以及探索如何提高摘要的准确性和简洁性。数据集的广泛应用还包括新闻推荐系统、信息检索和内容分析等领域。
背景与挑战
背景概述
XSum数据集,由爱丁堡大学的研究人员于2018年推出,专注于解决文本摘要领域的挑战。该数据集包含了超过20万篇新闻文章及其对应的单句摘要,旨在推动自动文本摘要技术的发展。XSum的独特之处在于其摘要的简洁性,每篇摘要仅由一个句子构成,这为研究者提供了一个极具挑战性的测试平台。该数据集的发布极大地促进了文本摘要领域的研究,尤其是在生成式摘要模型的发展上,为后续的研究奠定了坚实的基础。
当前挑战
XSum数据集在构建过程中面临了多项挑战。首先,单句摘要的生成要求模型具备高度的概括能力和语言表达的简洁性,这对现有的自然语言处理技术提出了严峻的考验。其次,数据集中的文章涵盖了广泛的主题和风格,要求模型能够适应多样化的文本内容。此外,摘要的准确性和信息完整性也是一大难题,如何在保持简洁的同时确保摘要的信息量和准确性,是研究者需要解决的关键问题。
发展历史
创建时间与更新
XSum数据集由爱丁堡大学的研究人员于2018年创建,旨在为文本摘要任务提供高质量的数据资源。该数据集自创建以来,未有官方更新记录,但其持续被广泛应用于自然语言处理领域的研究和开发中。
重要里程碑
XSum数据集的发布标志着文本摘要领域的一个重要里程碑。它首次引入了BBC新闻文章作为数据源,提供了超过20万篇新闻文章及其对应的单句摘要,极大地丰富了文本摘要任务的数据多样性。这一创新不仅推动了基于神经网络的摘要模型的发展,还为评估摘要算法的性能提供了标准化的基准。此外,XSum数据集在多个国际自然语言处理竞赛中被广泛采用,进一步巩固了其在该领域的权威地位。
当前发展情况
当前,XSum数据集已成为自然语言处理领域中不可或缺的资源之一。它不仅被用于训练和评估各种先进的文本摘要模型,如Transformer和BERT的变体,还促进了跨领域的研究合作。XSum数据集的成功应用,推动了自动文本摘要技术的进步,使得生成的摘要更加准确、简洁且符合人类阅读习惯。此外,该数据集的开放性和易用性,吸引了全球范围内的研究者和开发者,共同推动了文本摘要技术的普及和应用。
发展历程
  • XSum数据集首次发表,由Edinburgh大学自然语言处理小组发布,旨在为文本摘要任务提供高质量的数据资源。
    2018年
  • XSum数据集首次应用于自然语言处理领域的研究,特别是在抽象摘要生成任务中,展示了其独特的单句摘要特性。
    2019年
  • XSum数据集在多个国际会议和期刊上被广泛引用,成为文本摘要领域的重要基准数据集之一。
    2020年
  • XSum数据集的扩展版本发布,增加了更多的文本样本和多样化的摘要实例,进一步提升了其在研究中的应用价值。
    2021年
常用场景
经典使用场景
在自然语言处理领域,XSum数据集以其独特的单句摘要任务而闻名。该数据集广泛应用于文本摘要模型的训练与评估,特别是在生成式摘要任务中。研究者们利用XSum数据集来探索如何从长篇新闻文章中提取出最具信息量的单句摘要,从而提升摘要系统的精度和效率。
实际应用
在实际应用中,XSum数据集被广泛用于新闻媒体、信息检索和内容推荐系统。例如,新闻机构可以利用基于XSum训练的摘要模型,快速生成新闻报道的简要概述,提高信息传播的效率。搜索引擎和内容平台则可以通过这些摘要,为用户提供更精准的搜索结果和个性化推荐,从而提升用户体验。
衍生相关工作
XSum数据集的发布催生了多项相关研究工作。例如,研究者们基于XSum开发了多种先进的摘要模型,如BART和T5,这些模型在多个摘要任务中表现优异。此外,XSum还激发了对摘要生成任务中长尾分布问题的研究,推动了摘要生成技术的多样性和鲁棒性。这些衍生工作不仅丰富了自然语言处理的研究领域,也为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MNLI

MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。

cims.nyu.edu 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录