talgatzh/xsum-kk3
收藏Hugging Face2024-06-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/talgatzh/xsum-kk3
下载链接
链接失效反馈官方服务:
资源简介:
Extreme Summarization (XSum) 数据集是一个用于新闻文章极端摘要任务的数据集。它包含三个主要特征:document(输入的新闻文章)、summary(文章的单句摘要)和id(文章的BBC ID)。数据集的大小在10万到100万之间,属于单语言数据集。数据集的来源为XSum,任务类别为摘要,具体任务为新闻文章摘要。数据集的下载大小为257.30 MB,生成的数据集大小为532.26 MB,总磁盘使用量为789.56 MB。
Extreme Summarization (XSum) 数据集是一个用于新闻文章极端摘要任务的数据集。它包含三个主要特征:document(输入的新闻文章)、summary(文章的单句摘要)和id(文章的BBC ID)。数据集的大小在10万到100万之间,属于单语言数据集。数据集的来源为XSum,任务类别为摘要,具体任务为新闻文章摘要。数据集的下载大小为257.30 MB,生成的数据集大小为532.26 MB,总磁盘使用量为789.56 MB。
提供机构:
talgatzh
原始信息汇总
数据集概述
数据集名称
- 名称: Extreme Summarization (XSum)
- ID: xsum
数据集特征
- 语言: 单语种
- 许可证: 未知
- 大小: 100K<n<1M
数据集内容
- 特征:
- document: 字符串类型,输入的新闻文章。
- summary: 字符串类型,文章的一句摘要。
- id: 字符串类型,文章的BBC ID。
数据集结构
- 数据分割:
- train: 22525个样本,139159410字节。
- eval_split: 测试,具体样本数未提供。
任务与评估
- 任务: 新闻文章摘要
- 评估指标: Rouge
数据集创建
- 源数据: 来自XSum数据集
- 注释创建者: 发现
- 语言创建者: 发现
使用考虑
- 许可证: 未知,使用时需注意。
附加信息
-
贡献者: @thomwolf, @lewtun, @mariamabarham, @jbragg, @lhoestq, @patrickvonplaten
-
引用信息:
@article{Narayan2018DontGM, title={Dont Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization}, author={Shashi Narayan and Shay B. Cohen and Mirella Lapata}, journal={ArXiv}, year={2018}, volume={abs/1808.08745} }



