nakhun/thaisum
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nakhun/thaisum
下载链接
链接失效反馈官方服务:
资源简介:
ThaiSum是一个用于泰语文本摘要的大规模数据集,包含超过35万篇文章和摘要对。数据集来源于多个在线新闻网站,如Thairath、ThaiPBS、Prachathai和The Standard。数据集的结构包括文章标题、正文、摘要、类型、标签和URL。数据集分为训练集、验证集和测试集,分别包含358,868、11,000和11,000个样本。数据集的创建目的是为了填补泰语文本摘要领域大规模数据集的空白,并支持序列到序列模型的训练。
提供机构:
nakhun
原始信息汇总
数据集概述
数据集基本信息
- 名称: ThaiSum
- 语言: 泰语 (th)
- 许可证: MIT
- 多语言性: 单语种
- 大小: 100K<n<1M
- 源数据集: 原始数据
- 任务类别: 摘要生成、文本生成、填充掩码
- 任务ID: 语言建模、掩码语言建模
数据集结构
数据实例
每个数据实例包含以下字段:
title: 文章标题body: 文章内容summary: 文章摘要type: 文章类型tags: 文章标签url: 文章URL
数据分割
- 训练集: 358,868 实例
- 验证集: 11,000 实例
- 测试集: 11,000 实例
数据集创建
数据收集与规范化
- 来源: 从Thairath, ThaiPBS, Prachathai, The Standard等新闻网站爬取
- 时间范围: 2014年至2020年8月
- 数据清洗: 移除文本或摘要缺失的文章,以及特定标签的文章
数据统计
- 文章总数: 358,868
- 平均文章长度: 约530字
- 平均摘要长度: 约37字
- 独特词汇量: 407,355字
- 独特新闻标签量: 538,059
使用数据集的考虑
- 社会影响: 支持泰语新闻摘要和语言建模
- 潜在偏见: 数据来源包括不同政治倾向的新闻网站,可能影响数据的中立性



