pythainlp/thaisum

Name: pythainlp/thaisum
Creator: pythainlp
Published: 2023-10-08 14:06:17
License: 暂无描述

Hugging Face2023-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pythainlp/thaisum

下载链接

链接失效反馈

官方服务：

资源简介：

ThaiSum是一个用于泰语文本摘要的大规模数据集，包含超过35万篇文章和摘要对。这些文章和摘要来源于多个在线新闻网站，包括Thairath、ThaiPBS、Prachathai和The Standard。数据集的结构包括文章标题、正文、摘要、类型、标签和URL。数据集的目标任务包括文本摘要、语言建模和掩码语言建模。数据集的创建动机是为了填补泰语文本摘要领域的大规模数据集的空白，并支持序列到序列模型的训练。数据集的清理过程包括去除噪声数据、过滤不相关的摘要，并使用PyThaiNLP进行泰语文本处理。数据集的社会影响包括支持泰语新闻摘要和泰语语言建模。

ThaiSum is a large-scale dataset for Thai text summarization, containing over 350,000 article-summary pairs. These articles and summaries are sourced from multiple online news websites, including Thairath, ThaiPBS, Prachathai, and The Standard. The dataset includes article title, full text, summary, category, tags, and URL. Its target tasks include text summarization, language modeling, and masked language modeling. The dataset was developed to fill the gap of large-scale datasets in the Thai text summarization domain and to support the training of sequence-to-sequence models. The dataset cleaning process involves removing noisy data, filtering irrelevant summaries, and utilizing PyThaiNLP for Thai text processing. Its societal impacts include supporting Thai news summarization and Thai language modeling.

提供机构：

pythainlp

原始信息汇总

数据集概述

基本信息

数据集名称: ThaiSum
语言: 泰语
许可证: MIT
数据集大小: 100K<n<1M
多语言性: 单语种
源数据: 原始数据
任务类别: 摘要生成、文本生成、填充掩码
任务ID: 语言建模、掩码语言建模

数据集描述

数据集摘要

ThaiSum 是一个大规模的泰语文本摘要语料库，来源于多个在线新闻网站，包括 Thairath、ThaiPBS、Prachathai 和 The Standard。该数据集包含超过 350,000 篇文章和摘要对，由记者撰写。

支持的任务和排行榜

摘要生成
语言建模

语言

泰语

数据集结构

数据实例

json { "body": "กีเก ซานเชซ ฟลอเรสxa0 กุนซือเลือดกระทิงของทีมวัตฟอร์ดxa0 เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง,สำนักข่าวต่างประเทศรายงานวันที่ 27 ก.ย. ว่า กีเก ซานเชซ ฟลอเรสxa0 ผู้จัดการทีมชาวสเปน ของ แตนอาละวาด วัตฟอร์ดxa0 ยอมรับทีมของเขาเล่นได้ไม่ดีพอเอง ในเกมพรีเมียร์ลีก อังกฤษ นัดเปิดบ้านพ่าย อินทรีผงาด คริสตัล พาเลซ 0-1 เมื่อคืนวันอาทิตย์ที่ผ่านมา,เกมนี้จุดเปลี่ยนมาอยู่ที่การได้จุดโทษในช่วงครึ่งหลังของ คริสตัล พาเลซ ซึ่งไม่ค่อยชัดเจนเท่าไหร่ว่า อัลลัน นียอม นั้นไปทำฟาล์วใส่ วิลฟรีด ซาฮา ในเขตโทษหรือไม่ แต่ผู้ตัดสินก็ชี้เป็นจุดโทษ ซึ่ง โยอัน กาบาย สังหารไม่พลาด และเป็นประตูชัยช่วยให้ คริสตัล พาเลซ เอาชนะ วัตฟอร์ด ไป 1-0 และเป็นการพ่ายแพ้ในบ้านนัดแรกของวัตฟอร์ดในฤดูกาลนี้อีกด้วย,ฟลอเรส กล่าวว่า มันเป็นเรื่องยากในการหยุดเกมรุกของคริสตัล พาเลซ ซึ่งมันอึดอัดจริงๆสำหรับเรา เราเล่นกันได้ไม่ดีนักในตอนที่ได้ครองบอล เราต้องเล่นทางริมเส้นให้มากกว่านี้ เราไม่สามารถหยุดเกมสวนกลับของพวกเขาได้ และแนวรับของเราก็ยืนไม่เป็นระเบียบสักเท่าไหร่ในช่วงครึ่งแรก ส่วนเรื่องจุดโทษการตัดสินใจขั้นสุดท้ายมันอยู่ที่ผู้ตัดสิน ซึ่งมันเป็นการตัดสินใจที่สำคัญ ผมเองก็ไม่รู้ว่าเขาตัดสินถูกหรือเปล่า บางทีมันอาจเป็นจุดที่ตัดสินเกมนี้เลย แต่เราไม่ได้แพ้เกมนี้เพราะจุดโทษ เราแพ้ในวันนี้เพราะเราเล่นไม่ดีและคริสตัล พาเลซ เล่นดีกว่าเรา เราไม่ได้มีฟอร์มการเล่นที่ดีในเกมนี้เลย", "summary": "กีเก ซานเชซ ฟลอเรส กุนซือเลือดกระทิงของทีมวัตฟอร์ด เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง", "tags": "พรีเมียร์ลีก,วัตฟอร์ด,คริสตัล พาเลซ,กีเก ซานเชซ ฟลอเรส,ข่าวกีฬา,ข่าว,ไทยรัฐออนไลน์", "title": "ฟลอเรส รับ วัตฟอร์ดห่วยเองเกมพ่ายพาเลซคาบ้าน", "type": "", "url": "https://www.thairath.co.th/content/528322" }

数据字段

title: 文章标题
body: 文章内容
summary: 文章摘要
type: 文章类型（如果有）
tags: 文章标签，以逗号分隔
url: 文章的URL

数据分割

训练集: 358868
验证集: 11000
测试集: 11000

数据集创建

创建理由

序列到序列（Seq2Seq）模型在文本摘要方面取得了巨大成就。然而，Seq2Seq模型通常需要大规模的训练数据才能取得有效结果。尽管文本摘要领域取得了许多令人印象深刻的进展，但大多数研究都集中在资源丰富的语言上。泰语文本摘要的进展仍然远远落后。由于缺乏大规模数据集，泰语文本摘要仍处于起步阶段。据我们所知，目前还没有可用于泰语文本摘要的大规模数据集。因此，我们提出了ThaiSum，这是一个从多个在线新闻网站（包括Thairath、ThaiPBS、Prachathai和The Standard）获取的大规模泰语文本摘要语料库。

源数据

初始数据收集和规范化

我们使用了一个名为Scrapy的Python库来从多个新闻网站（包括Thairath、Prachatai、ThaiPBS和The Standard）抓取文章。我们首先收集了它们站点地图中提供的新闻URL。在网络爬取过程中，我们使用HTML标记和HTML页面中的元数据来识别文章文本、摘要、标题、标签和标签。收集的文章在线发布于2014年至2020年8月。

我们进一步进行了数据清洗过程以最小化噪声数据。我们过滤掉了文章文本或摘要缺失的文章。包含少于150个单词的文章文本或少于15个单词的摘要的文章被删除。我们还丢弃了包含以下标签之一的文章：‘ดวง’（占星术）、‘นิยาย’（小说）、‘อินสตราแกรมดารา’（名人Instagram）、‘คลิปสุดฮา’（搞笑视频）和‘สรุปข่าว’（新闻摘要）。一些摘要对原文本完全不相关。为了消除这些不相关的摘要，我们计算了摘要和其文章文本之间的抽象度得分。抽象度得分公式如下： [ frac{|S-A|}{r} imes 100 ] 其中，𝑆表示文章词集合，𝐴表示摘要词集合，𝑟表示摘要词总数。我们排除了抽象度得分在1-gram上高于60%的文章。

需要注意的是，我们在这项研究中使用了PyThaiNLP（版本2.2.4，分词引擎=newmm）来处理泰语文本。将泰语文本分词为单词或句子具有挑战性，因为泰语中没有明确的单词/句子分隔符。因此，使用不同的分词引擎可能会导致不同的单词/句子分段。

数据清洗过程后，ThaiSum数据集包含超过358,000篇文章。该数据集的大小与著名的英语文档摘要数据集CNN/Daily Mail数据集相当。此外，我们通过测量抽象度水平、比较率和内容多样性来分析该数据集的特征。更多详情，请参见thaisum_exploration.ipynb。

数据集统计

ThaiSum

搜集汇总

数据集介绍

构建方式

ThaiSum数据集的构建是通过从多个在线新闻网站（Thairath、ThaiPBS、Prachathai和The Standard）抓取新闻文章，并对抓取到的数据进行清洗和筛选。具体包括移除缺失文章文本或摘要的数据，删除字数过少的文章和摘要，以及排除特定标签的文章。数据清洗后，使用PyThaiNLP工具进行文本处理，最终形成包含358,868篇文章的泰国文本摘要数据集。

使用方法

使用ThaiSum数据集时，用户可以直接访问数据集中的文章标题、正文、摘要、类型、标签和URL等字段。数据集已经被划分为训练集、验证集和测试集，方便用户进行模型训练和评估。用户可以根据需要，利用数据集中的摘要和正文进行文本摘要模型的训练，或者进行语言模型的相关研究。

背景与挑战

背景概述

ThaiSum数据集，创建于近年来，由Nakhun Chumpolsathien等研究人员精心构建，旨在推动泰国文本摘要领域的发展。该数据集汇集了来自泰国多个知名新闻网站，如Thairath、ThaiPBS、Prachathai和The Standard的超过35万篇文章和摘要对。ThaiSum的构建，不仅解决了泰国语言资源匮乏的问题，也为泰国文本摘要和语言模型训练提供了宝贵的资源。其影响力在学术界和工业界逐渐显现，成为泰国自然语言处理领域的一个重要里程碑。

当前挑战

尽管ThaiSum数据集在规模和多样性上取得了显著成就，但在构建过程中也面临了诸多挑战。首先，由于泰语缺乏明确的单词和句子分隔符，文本的分词成为一大难题。其次，数据清洗过程中，如何准确识别并过滤掉质量较低或不相关的文章摘要，保持数据集的质量和一致性，也是一个重要挑战。此外，数据集中可能存在的偏差，以及如何确保数据在多个领域的公平性和代表性，都是未来研究和改进的方向。

常用场景

经典使用场景

ThaiSum数据集作为泰国文本摘要在序列到序列模型训练中的大规模语料库，其经典使用场景主要集中于训练和评估文本摘要模型。通过该数据集，研究人员能够构建出能够准确捕捉文章核心内容的摘要生成模型，从而服务于新闻摘要自动化、信息检索以及内容推荐等领域。

解决学术问题

该数据集解决了泰国语言资源相对匮乏，特别是在文本摘要领域缺乏大规模训练数据的问题。ThaiSum的构建不仅促进了泰国文本摘要研究的发展，还为跨语言摘要模型训练提供了宝贵的多语言语料。此外，它还帮助学术界探讨和解决在泰国文本处理中遇到的语言特性问题，如缺乏明确的词句分隔符。

实际应用

在实际应用中，ThaiSum数据集可用于新闻聚合平台的自动化摘要生成，为用户提供快速获取信息的方式。同时，它也能被用于教育领域，帮助学习者通过摘要更好地理解和复习文章内容。此外，在信息过载的当下，ThaiSum有助于开发出更高效的文本处理工具，以提升信息筛选和处理的效率。

数据集最近研究