pythainlp/thaisum
收藏数据集概述
基本信息
- 数据集名称: ThaiSum
- 语言: 泰语
- 许可证: MIT
- 数据集大小: 100K<n<1M
- 多语言性: 单语种
- 源数据: 原始数据
- 任务类别: 摘要生成、文本生成、填充掩码
- 任务ID: 语言建模、掩码语言建模
数据集描述
数据集摘要
ThaiSum 是一个大规模的泰语文本摘要语料库,来源于多个在线新闻网站,包括 Thairath、ThaiPBS、Prachathai 和 The Standard。该数据集包含超过 350,000 篇文章和摘要对,由记者撰写。
支持的任务和排行榜
- 摘要生成
- 语言建模
语言
泰语
数据集结构
数据实例
json { "body": "กีเก ซานเชซ ฟลอเรสxa0 กุนซือเลือดกระทิงของทีมวัตฟอร์ดxa0 เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง,สำนักข่าวต่างประเทศรายงานวันที่ 27 ก.ย. ว่า กีเก ซานเชซ ฟลอเรสxa0 ผู้จัดการทีมชาวสเปน ของ แตนอาละวาด วัตฟอร์ดxa0 ยอมรับทีมของเขาเล่นได้ไม่ดีพอเอง ในเกมพรีเมียร์ลีก อังกฤษ นัดเปิดบ้านพ่าย อินทรีผงาด คริสตัล พาเลซ 0-1 เมื่อคืนวันอาทิตย์ที่ผ่านมา,เกมนี้จุดเปลี่ยนมาอยู่ที่การได้จุดโทษในช่วงครึ่งหลังของ คริสตัล พาเลซ ซึ่งไม่ค่อยชัดเจนเท่าไหร่ว่า อัลลัน นียอม นั้นไปทำฟาล์วใส่ วิลฟรีด ซาฮา ในเขตโทษหรือไม่ แต่ผู้ตัดสินก็ชี้เป็นจุดโทษ ซึ่ง โยอัน กาบาย สังหารไม่พลาด และเป็นประตูชัยช่วยให้ คริสตัล พาเลซ เอาชนะ วัตฟอร์ด ไป 1-0 และเป็นการพ่ายแพ้ในบ้านนัดแรกของวัตฟอร์ดในฤดูกาลนี้อีกด้วย,ฟลอเรส กล่าวว่า มันเป็นเรื่องยากในการหยุดเกมรุกของคริสตัล พาเลซ ซึ่งมันอึดอัดจริงๆสำหรับเรา เราเล่นกันได้ไม่ดีนักในตอนที่ได้ครองบอล เราต้องเล่นทางริมเส้นให้มากกว่านี้ เราไม่สามารถหยุดเกมสวนกลับของพวกเขาได้ และแนวรับของเราก็ยืนไม่เป็นระเบียบสักเท่าไหร่ในช่วงครึ่งแรก ส่วนเรื่องจุดโทษการตัดสินใจขั้นสุดท้ายมันอยู่ที่ผู้ตัดสิน ซึ่งมันเป็นการตัดสินใจที่สำคัญ ผมเองก็ไม่รู้ว่าเขาตัดสินถูกหรือเปล่า บางทีมันอาจเป็นจุดที่ตัดสินเกมนี้เลย แต่เราไม่ได้แพ้เกมนี้เพราะจุดโทษ เราแพ้ในวันนี้เพราะเราเล่นไม่ดีและคริสตัล พาเลซ เล่นดีกว่าเรา เราไม่ได้มีฟอร์มการเล่นที่ดีในเกมนี้เลย", "summary": "กีเก ซานเชซ ฟลอเรส กุนซือเลือดกระทิงของทีมวัตฟอร์ด เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง", "tags": "พรีเมียร์ลีก,วัตฟอร์ด,คริสตัล พาเลซ,กีเก ซานเชซ ฟลอเรส,ข่าวกีฬา,ข่าว,ไทยรัฐออนไลน์", "title": "ฟลอเรส รับ วัตฟอร์ดห่วยเองเกมพ่ายพาเลซคาบ้าน", "type": "", "url": "https://www.thairath.co.th/content/528322" }
数据字段
title: 文章标题body: 文章内容summary: 文章摘要type: 文章类型(如果有)tags: 文章标签,以逗号分隔url: 文章的URL
数据分割
- 训练集: 358868
- 验证集: 11000
- 测试集: 11000
数据集创建
创建理由
序列到序列(Seq2Seq)模型在文本摘要方面取得了巨大成就。然而,Seq2Seq模型通常需要大规模的训练数据才能取得有效结果。尽管文本摘要领域取得了许多令人印象深刻的进展,但大多数研究都集中在资源丰富的语言上。泰语文本摘要的进展仍然远远落后。由于缺乏大规模数据集,泰语文本摘要仍处于起步阶段。据我们所知,目前还没有可用于泰语文本摘要的大规模数据集。因此,我们提出了ThaiSum,这是一个从多个在线新闻网站(包括Thairath、ThaiPBS、Prachathai和The Standard)获取的大规模泰语文本摘要语料库。
源数据
初始数据收集和规范化
我们使用了一个名为Scrapy的Python库来从多个新闻网站(包括Thairath、Prachatai、ThaiPBS和The Standard)抓取文章。我们首先收集了它们站点地图中提供的新闻URL。在网络爬取过程中,我们使用HTML标记和HTML页面中的元数据来识别文章文本、摘要、标题、标签和标签。收集的文章在线发布于2014年至2020年8月。
我们进一步进行了数据清洗过程以最小化噪声数据。我们过滤掉了文章文本或摘要缺失的文章。包含少于150个单词的文章文本或少于15个单词的摘要的文章被删除。我们还丢弃了包含以下标签之一的文章:‘ดวง’(占星术)、‘นิยาย’(小说)、‘อินสตราแกรมดารา’(名人Instagram)、‘คลิปสุดฮา’(搞笑视频)和‘สรุปข่าว’(新闻摘要)。一些摘要对原文本完全不相关。为了消除这些不相关的摘要,我们计算了摘要和其文章文本之间的抽象度得分。抽象度得分公式如下: [ frac{|S-A|}{r} imes 100 ] 其中,𝑆表示文章词集合,𝐴表示摘要词集合,𝑟表示摘要词总数。我们排除了抽象度得分在1-gram上高于60%的文章。
需要注意的是,我们在这项研究中使用了PyThaiNLP(版本2.2.4,分词引擎=newmm)来处理泰语文本。将泰语文本分词为单词或句子具有挑战性,因为泰语中没有明确的单词/句子分隔符。因此,使用不同的分词引擎可能会导致不同的单词/句子分段。
数据清洗过程后,ThaiSum数据集包含超过358,000篇文章。该数据集的大小与著名的英语文档摘要数据集CNN/Daily Mail数据集相当。此外,我们通过测量抽象度水平、比较率和内容多样性来分析该数据集的特征。更多详情,请参见thaisum_exploration.ipynb。
数据集统计
ThaiSum




