csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集

hugging_face2023-04-18 更新2024-03-04 收录

文本摘要

多语言处理

下载链接：

https://hf-mirror.com/datasets/csebuetnlp/xlsum

下载链接

链接失效反馈

资源简介：

XL-Sum是一个包含1.35百万个经过专业注释的文章-摘要对的多样化数据集，涵盖了从低资源到高资源的45种语言。该数据集适用于摘要生成和文本生成任务，具有高度的抽象性、简洁性和高质量。数据来源于BBC新闻，经过精心设计的启发式方法提取。

提供机构：

csebuetnlp

原始信息汇总

数据集概述

数据集名称

名称: XL-Sum
别名: XLSum

数据集描述

概述: XL-Sum 是一个包含1.35百万个专业标注的文章-摘要对的全面且多样化的数据集，这些数据从BBC提取，使用了一套精心设计的启发式方法。该数据集覆盖了45种语言，涵盖了从低资源到高资源的语言，其中许多语言目前没有公开可用的数据集。XL-Sum 高度抽象、简洁且质量高，这一点已通过人类和内在评估得到证实。

支持的任务和排行榜

任务: 摘要生成、文本生成

语言

支持的语言: 包括但不限于阿姆哈拉语、阿拉伯语、阿塞拜疆语、孟加拉语、缅甸语、简体中文、繁体中文、英语、法语、古吉拉特语、豪萨语、印地语、伊博语、印度尼西亚语、日语、基隆迪语、韩语、吉尔吉斯语、马拉地语、尼泊尔语、奥罗莫语、普什图语、波斯语、皮钦语、葡萄牙语、旁遮普语、俄语、苏格兰盖尔语、塞尔维亚语（西里尔字母）、塞尔维亚语（拉丁字母）、僧伽罗语、索马里语、西班牙语、斯瓦希里语、泰米尔语、泰卢固语、泰语、提格里尼亚语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、约鲁巴语。

数据集结构

数据实例: 每个实例包括文章ID、URL、标题、摘要和全文。
数据字段: 包括id, url, title, summary, text。
数据分割: 大多数语言采用80%-10%-10%的分割，但英语、苏格兰盖尔语、吉尔吉斯语和僧伽罗语有特殊分割比例。

数据集创建

来源数据: 来自BBC新闻。
许可证: 数据集内容受Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)限制，仅用于非商业研究目的。

引用信息

引用: 如果使用该数据集，请引用以下论文：

@inproceedings{hasan-etal-2021-xl, title = "{XL}-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages", author = "Hasan, Tahmid and Bhattacharjee, Abhik and Islam, Md. Saiful and Mubasshir, Kazi and Li, Yuan-Fang and Kang, Yong-Bin and Rahman, M. Sohel and Shahriyar, Rifat", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.413", pages = "4693--4703", }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center，格式包括Fortran (.DAT)和JSON，数据集大小为81MB（压缩）和450MB（未压缩），记录数约750,000条，每日更新。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录