nakhun/thaisum

Name: nakhun/thaisum
Creator: nakhun
Published: 2024-01-18 11:17:07
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/nakhun/thaisum

下载链接

链接失效反馈

官方服务：

资源简介：

ThaiSum是一个用于泰语文本摘要的大规模数据集，包含超过35万篇文章和摘要对。数据集来源于多个在线新闻网站，如Thairath、ThaiPBS、Prachathai和The Standard。数据集的结构包括文章标题、正文、摘要、类型、标签和URL。数据集分为训练集、验证集和测试集，分别包含358,868、11,000和11,000个样本。数据集的创建目的是为了填补泰语文本摘要领域大规模数据集的空白，并支持序列到序列模型的训练。

提供机构：

nakhun

原始信息汇总

数据集概述

数据集基本信息

名称: ThaiSum
语言: 泰语 (th)
许可证: MIT
多语言性: 单语种
大小: 100K<n<1M
源数据集: 原始数据
任务类别: 摘要生成、文本生成、填充掩码
任务ID: 语言建模、掩码语言建模

数据集结构

数据实例

每个数据实例包含以下字段:

title: 文章标题
body: 文章内容
summary: 文章摘要
type: 文章类型
tags: 文章标签
url: 文章URL

数据分割

训练集: 358,868 实例
验证集: 11,000 实例
测试集: 11,000 实例

数据集创建

数据收集与规范化

来源: 从Thairath, ThaiPBS, Prachathai, The Standard等新闻网站爬取
时间范围: 2014年至2020年8月
数据清洗: 移除文本或摘要缺失的文章，以及特定标签的文章

数据统计

文章总数: 358,868
平均文章长度: 约530字
平均摘要长度: 约37字
独特词汇量: 407,355字
独特新闻标签量: 538,059

使用数据集的考虑

社会影响: 支持泰语新闻摘要和语言建模
潜在偏见: 数据来源包括不同政治倾向的新闻网站，可能影响数据的中立性

5,000+

优质数据集

54 个

任务类型

进入经典数据集