csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集
收藏数据集概述
数据集名称
- 名称: XL-Sum
- 别名: XLSum
数据集描述
- 概述: XL-Sum 是一个包含1.35百万个专业标注的文章-摘要对的全面且多样化的数据集,这些数据从BBC提取,使用了一套精心设计的启发式方法。该数据集覆盖了45种语言,涵盖了从低资源到高资源的语言,其中许多语言目前没有公开可用的数据集。XL-Sum 高度抽象、简洁且质量高,这一点已通过人类和内在评估得到证实。
支持的任务和排行榜
- 任务: 摘要生成、文本生成
语言
- 支持的语言: 包括但不限于阿姆哈拉语、阿拉伯语、阿塞拜疆语、孟加拉语、缅甸语、简体中文、繁体中文、英语、法语、古吉拉特语、豪萨语、印地语、伊博语、印度尼西亚语、日语、基隆迪语、韩语、吉尔吉斯语、马拉地语、尼泊尔语、奥罗莫语、普什图语、波斯语、皮钦语、葡萄牙语、旁遮普语、俄语、苏格兰盖尔语、塞尔维亚语(西里尔字母)、塞尔维亚语(拉丁字母)、僧伽罗语、索马里语、西班牙语、斯瓦希里语、泰米尔语、泰卢固语、泰语、提格里尼亚语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、约鲁巴语。
数据集结构
- 数据实例: 每个实例包括文章ID、URL、标题、摘要和全文。
- 数据字段: 包括id, url, title, summary, text。
- 数据分割: 大多数语言采用80%-10%-10%的分割,但英语、苏格兰盖尔语、吉尔吉斯语和僧伽罗语有特殊分割比例。
数据集创建
- 来源数据: 来自BBC新闻。
- 许可证: 数据集内容受Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)限制,仅用于非商业研究目的。
引用信息
-
引用: 如果使用该数据集,请引用以下论文:
@inproceedings{hasan-etal-2021-xl, title = "{XL}-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages", author = "Hasan, Tahmid and Bhattacharjee, Abhik and Islam, Md. Saiful and Mubasshir, Kazi and Li, Yuan-Fang and Kang, Yong-Bin and Rahman, M. Sohel and Shahriyar, Rifat", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.413", pages = "4693--4703", }
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录