five

talgatzh/xsum-kk3

收藏
Hugging Face2024-06-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/talgatzh/xsum-kk3
下载链接
链接失效反馈
官方服务:
资源简介:
Extreme Summarization (XSum) 数据集是一个用于新闻文章极端摘要任务的数据集。它包含三个主要特征:document(输入的新闻文章)、summary(文章的单句摘要)和id(文章的BBC ID)。数据集的大小在10万到100万之间,属于单语言数据集。数据集的来源为XSum,任务类别为摘要,具体任务为新闻文章摘要。数据集的下载大小为257.30 MB,生成的数据集大小为532.26 MB,总磁盘使用量为789.56 MB。

Extreme Summarization (XSum) 数据集是一个用于新闻文章极端摘要任务的数据集。它包含三个主要特征:document(输入的新闻文章)、summary(文章的单句摘要)和id(文章的BBC ID)。数据集的大小在10万到100万之间,属于单语言数据集。数据集的来源为XSum,任务类别为摘要,具体任务为新闻文章摘要。数据集的下载大小为257.30 MB,生成的数据集大小为532.26 MB,总磁盘使用量为789.56 MB。
提供机构:
talgatzh
原始信息汇总

数据集概述

数据集名称

  • 名称: Extreme Summarization (XSum)
  • ID: xsum

数据集特征

  • 语言: 单语种
  • 许可证: 未知
  • 大小: 100K<n<1M

数据集内容

  • 特征:
    • document: 字符串类型,输入的新闻文章。
    • summary: 字符串类型,文章的一句摘要。
    • id: 字符串类型,文章的BBC ID。

数据集结构

  • 数据分割:
    • train: 22525个样本,139159410字节。
    • eval_split: 测试,具体样本数未提供。

任务与评估

  • 任务: 新闻文章摘要
  • 评估指标: Rouge

数据集创建

  • 源数据: 来自XSum数据集
  • 注释创建者: 发现
  • 语言创建者: 发现

使用考虑

  • 许可证: 未知,使用时需注意。

附加信息

  • 贡献者: @thomwolf, @lewtun, @mariamabarham, @jbragg, @lhoestq, @patrickvonplaten

  • 引用信息:

    @article{Narayan2018DontGM, title={Dont Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization}, author={Shashi Narayan and Shay B. Cohen and Mirella Lapata}, journal={ArXiv}, year={2018}, volume={abs/1808.08745} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作