five

nakhun/thaisum

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nakhun/thaisum
下载链接
链接失效反馈
官方服务:
资源简介:
ThaiSum是一个用于泰语文本摘要的大规模数据集,包含超过35万篇文章和摘要对。数据集来源于多个在线新闻网站,如Thairath、ThaiPBS、Prachathai和The Standard。数据集的结构包括文章标题、正文、摘要、类型、标签和URL。数据集分为训练集、验证集和测试集,分别包含358,868、11,000和11,000个样本。数据集的创建目的是为了填补泰语文本摘要领域大规模数据集的空白,并支持序列到序列模型的训练。
提供机构:
nakhun
原始信息汇总

数据集概述

数据集基本信息

  • 名称: ThaiSum
  • 语言: 泰语 (th)
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 源数据集: 原始数据
  • 任务类别: 摘要生成、文本生成、填充掩码
  • 任务ID: 语言建模、掩码语言建模

数据集结构

数据实例

每个数据实例包含以下字段:

  • title: 文章标题
  • body: 文章内容
  • summary: 文章摘要
  • type: 文章类型
  • tags: 文章标签
  • url: 文章URL

数据分割

  • 训练集: 358,868 实例
  • 验证集: 11,000 实例
  • 测试集: 11,000 实例

数据集创建

数据收集与规范化

  • 来源: 从Thairath, ThaiPBS, Prachathai, The Standard等新闻网站爬取
  • 时间范围: 2014年至2020年8月
  • 数据清洗: 移除文本或摘要缺失的文章,以及特定标签的文章

数据统计

  • 文章总数: 358,868
  • 平均文章长度: 约530字
  • 平均摘要长度: 约37字
  • 独特词汇量: 407,355字
  • 独特新闻标签量: 538,059

使用数据集的考虑

  • 社会影响: 支持泰语新闻摘要和语言建模
  • 潜在偏见: 数据来源包括不同政治倾向的新闻网站,可能影响数据的中立性
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作