five

PyThaiNLP/prachathai67k

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/PyThaiNLP/prachathai67k
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - found language_creators: - found language: - en license: - unknown multilinguality: - monolingual size_categories: - 10K<n<100K source_datasets: - original task_categories: - text-classification task_ids: - topic-classification paperswithcode_id: prachathai-67k pretty_name: prachathai67k dataset_info: features: - name: url dtype: string - name: date dtype: string - name: title dtype: string - name: body_text dtype: string - name: politics dtype: class_label: names: '0': neg '1': pos - name: human_rights dtype: class_label: names: '0': neg '1': pos - name: quality_of_life dtype: class_label: names: '0': neg '1': pos - name: international dtype: class_label: names: '0': neg '1': pos - name: social dtype: class_label: names: '0': neg '1': pos - name: environment dtype: class_label: names: '0': neg '1': pos - name: economics dtype: class_label: names: '0': neg '1': pos - name: culture dtype: class_label: names: '0': neg '1': pos - name: labor dtype: class_label: names: '0': neg '1': pos - name: national_security dtype: class_label: names: '0': neg '1': pos - name: ict dtype: class_label: names: '0': neg '1': pos - name: education dtype: class_label: names: '0': neg '1': pos config_name: prachathai67k splits: - name: train num_bytes: 865848436 num_examples: 54379 - name: validation num_bytes: 108641386 num_examples: 6721 - name: test num_bytes: 110034036 num_examples: 6789 download_size: 254240975 dataset_size: 1084523858 --- # Dataset Card for `prachathai67k` ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://github.com/PyThaiNLP/prachathai-67k - **Repository:** https://github.com/PyThaiNLP/prachathai-67k - **Paper:** - **Leaderboard:** - **Point of Contact:** https://github.com/PyThaiNLP/ ### Dataset Summary `prachathai-67k`: News Article Corpus and Multi-label Text Classificdation from Prachathai.com The `prachathai-67k` dataset was scraped from the news site [Prachathai](prachathai.com). We filtered out those articles with less than 500 characters of body text, mostly images and cartoons. It contains 67,889 articles wtih 12 curated tags from August 24, 2004 to November 15, 2018. The dataset was originally scraped by [@lukkiddd](https://github.com/lukkiddd) and cleaned by [@cstorm125](https://github.com/cstorm125). Download the dataset [here](https://www.dropbox.com/s/fsxepdka4l2pr45/prachathai-67k.zip?dl=1). You can also see preliminary exploration in [exploration.ipynb](https://github.com/PyThaiNLP/prachathai-67k/blob/master/exploration.ipynb). This dataset is a part of [pyThaiNLP](https://github.com/PyThaiNLP/) Thai text [classification-benchmarks](https://github.com/PyThaiNLP/classification-benchmarks). For the benchmark, we selected the following tags with substantial volume that resemble **classifying types of articles**: * `การเมือง` - politics * `สิทธิมนุษยชน` - human_rights * `คุณภาพชีวิต` - quality_of_life * `ต่างประเทศ` - international * `สังคม` - social * `สิ่งแวดล้อม` - environment * `เศรษฐกิจ` - economics * `วัฒนธรรม` - culture * `แรงงาน` - labor * `ความมั่นคง` - national_security * `ไอซีที` - ict * `การศึกษา` - education ### Supported Tasks and Leaderboards multi-label text classification, language modeling ### Languages Thai ## Dataset Structure ### Data Instances {'body_text': '17 พ.ย. 2558 Blognone [1] รายงานว่า กลุ่มแฮคเกอร์ Anonymous ประกาศสงครามไซเบอร์กับกลุ่มหัวรุนแรงหลังจากกลุ่ม IS ออกมาประกาศว่าเป็นผู้อยู่เบื้องหลังการโจมตีกรุงปารีสในคืนวันศุกร์ที่ผ่านมา\n\n\nภาพในคลิปใน YouTube โฆษกของกลุ่มแฮคเกอร์สวมหน้ากากที่เป็นสัญลักษณ์ของกลุ่มได้ออกมาอ่านแถลงเป็นภาษาฝรั่งเศส มีใจความว่า จากการโจมตีของกลุ่ม IS ในกรุงปารีส กลุ่ม Anonymous ทั่วโลกจะตามล่ากลุ่ม IS เหมือนที่เคยทำตอนที่มีการโจมตีสำนักพิมพ์ Charlie Hebdo และครั้งนี้จะเป็นปฏิบัติการโจมตีครั้งใหญ่ที่สุดของกลุ่ม Anonymous เลย นอกจากนี้กลุ่ม Anonymous ยังแสดงความเสียใจต่อครอบครัวผู้สูญเสียในเหตุการณ์ครั้งนี้\nกลุ่ม Anonymous เคยประกาศสงครามกับกลุ่ม IS หลังจากการโจมตีสำนักพิมพ์ Charlie Hebdo ที่ฝรั่งเศสเมื่อต้นปีที่ผ่านมา ซึ่งครั้งนั้นกลุ่ม Anonymous อ้างว่าได้ระงับบัญชีผู้ใช้งานที่เกี่ยวข้องกับ IS ไปหลายพันบัญชี (อ่านรายละเอียดเพิ่มเติม จากBlognone ที่\xa0\xa0กลุ่มแฮคเกอร์ Anonymous ประกาศสงครามไซเบอร์ขอกวาดล้างพวก ISIS [2])', 'culture': 0, 'date': '2015-11-17 18:14', 'economics': 0, 'education': 0, 'environment': 0, 'human_rights': 0, 'ict': 1, 'international': 1, 'labor': 0, 'national_security': 0, 'politics': 0, 'quality_of_life': 0, 'social': 0, 'title': 'แฮคเกอร์ Anonymous ลั่นทำสงครามไซเบอร์ครั้งใหญ่สุดกับกลุ่ม IS', 'url': 'https://prachatai.com/print/62490'} {'body_text': 'แถลงการณ์\n\n\xa0\n\nองค์การนักศึกษามหาวิทยาลัยธรรมศาสตร์\n\n\xa0\n\nมหาวิทยาลัยธรรมศาสตร์ก่อตั้งขึ้นภายใต้แนวคิดการให้การศึกษากับประชาชนเพื่อสนับสนุนการปกครองระบอบประชาธิปไตย อีกทั้งยังเป็นสถาบันหนึ่งที่อยู่เคียงข้างประชาชนมาโดยตลอด\n\n\xa0\n\nสถานการณ์สังคมไทยปัจจุบันได้เกิดความขัดแย้งทางการเมือง ทางแนวคิด จนลุกลามเป็นวิกฤตการณ์อันหาทางออกได้ยากยิ่ง องค์กรนักศึกษามหาวิทยาลัยธรรมศาสตร์ขอร้องเรียนและเสนอแนะต่อทุกฝ่าย โดยยึดหลักแนวทางตามรัฐธรรมนูญแห่งราชอาณาจักรไทย พ.ศ. ๒๕๕๐ อันเป็นกฎหมายสูงสุดในการจัดการปกครองรัฐ ที่มีผลบังคับใช้อยู่ในปัจจุบันซึ่งผ่านการประชามติจากปวงชนชาวไทยเมื่อวันที่ ๑๙ สิงหาคม พ.ศ. ๒๕๕๐ แล้วดังต่อนี้\n\n\xa0\n\n๑.การชุมชมโดยสงบและปราศจากอาวุธย่อมได้รับการคุ้มครองตามรัฐธรรมนูญ แต่หากการชุมนุมและเคลื่อนไหวของกลุ่มใดๆ มีการละเมิดสิทธิและเสรีภาพของผู้อื่นหรือก่อให้เกิดความเสียหายต่อชีวิตและทรัพย์สินของบุคคลและส่วนรวมนั้น ไม่สามารถกระทำได้ การใช้ความรุนแรง การกระทำอุกอาจต่างๆ ทั้งต่อบุคคลและทรัพย์สิน การยั่วยุ ปลุกระดมเพื่อหวังผลในการปะทะต่อสู้ จึงควรได้รับการกล่าวโทษ\n\n\xa0\n\nดังนั้นทั้งกลุ่มพันธมิตรประชาชนเพื่อประชาธิปไตย (พธม.) และกลุ่มแนวร่วมประชาธิปไตยไม่เอาเผด็จการแห่งชาติ (นปช.) จึงควรยอมรับกระบวนการตามกฎหมาย และหากถูกกล่าวหาไม่ว่ากรณีใดๆ ก็ควรพิสูจน์ความบริสุทธิ์โดยใช้กระบวนการยุติธรรม และหากจะยังชุมนุมต่อไปก็ยังคงทำได้ภายใต้บทบัญญัติแห่งกฎหมาย\n\n\xa0\n\nองค์กรนักศึกษามหาวิทยาลัยธรรมศาสตร์ จึงร้องขอให้หน่วยงานต่างๆ ที่เกี่ยวข้องดำเนินการตามกระบวนการทางกฎหมายกับการกระทำที่ผิดบทบัญญัติแห่งกฎหมายที่ทุกฝ่ายได้กระทำไป\n\n\xa0\n\n๒.นายสมัคร สุนทรเวช นายกรัฐมนตรี ไม่มีความเหมาะสมในการบริหารราชการแผ่นดินขาดหลักธรรมาภิบาล แต่ทั้งนี้นายสมัคร สุนทรเวช ยังคงยืนยันและกล่าวอ้างความชอบธรรมตามระบอบประชาธิปไตยภายใต้รัฐธรรมนูญ โดยไม่คำนึงถึงกระแสเรียกร้องใดๆ อันส่งผลให้ความขัดแย้งทางสังคมยิ่งบานปลายจนกลายเป็นวิกฤตการณ์เช่นปัจจุบัน ซึ่งก่อให้เกิดความเสียหายต่อประเทศแนวโน้มจะคลี่คลาย\n\n\xa0\n\nองค์การนักศึกษามหาวิทยาลัยธรรมศาสตร์ จึงเห็นว่า ควรใช้สิทธิตามรัฐธรรมนูญแห่งราชอาณาจักรไทย พุทธศักราช ๒๕๕๐ มาตรา ๑๖๔ โดยการเข้าชื่อเพื่อร้องต่อประธานวุฒิสภาเพื่อให้มีมติตามมาตรา ๒๗๔ ให้ถอดถอนนายสมัคร สุนทรเวช ออกจากตำแหน่งนายกรัฐมนตรีตามมาตรา ๒๗๐ ณ ลานโพ มหาวิทยาลัยธรรมศาสตร์ ท่าพระจันทร์ อาคารเรียนรวมสังคมศาสตร์ อาคารปิยชาติ และตึกกิจกรรมนักศึกษา มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต\n\n\xa0\n\n\xa0\n\nด้วยความสมานฉันท์\n\nองค์การนักศึกษามหาวิทยาลัยธรรมศาสตร์', 'culture': 0, 'date': '2008-09-06 03:36', 'economics': 0, 'education': 0, 'environment': 0, 'human_rights': 0, 'ict': 0, 'international': 0, 'labor': 0, 'national_security': 0, 'politics': 1, 'quality_of_life': 0, 'social': 0, 'title': 'แถลงการณ์ อมธ.แนะใช้สิทธิ ตาม รธน.เข้าชื่อร้องต่อประธานวุฒิสภาถอดถอน "สมัคร" จากตำแหน่งนายกฯ', 'url': 'https://prachatai.com/print/18038'} ### Data Fields - `url`: url of the article - `date`: date the article was published - `title`: title of the article - `body_text`: body text of the article - `politics`: 1 if sample has this tag else 0 - `human_rights`: 1 if sample has this tag else 0 - `quality_of_life`: 1 if sample has this tag else 0 - `international`: 1 if sample has this tag else 0 - `social`: 1 if sample has this tag else 0 - `environment`: 1 if sample has this tag else 0 - `economics`: 1 if sample has this tag else 0 - `culture`: 1 if sample has this tag else 0 - `labor`: 1 if sample has this tag else 0 - `national_security`: 1 if sample has this tag else 0 - `ict`: 1 if sample has this tag else 0 - `education`: 1 if sample has this tag else 0 ### Data Splits | | train | valid | test | |-------------------|-------|--------|------| | # articles | 54379 | 6721 | 6789 | | politics | 31401 | 3852 | 3842 | | human_rights | 12061 | 1458 | 1511 | | quality_of_life | 9037 | 1144 | 1127 | | international | 6432 | 828 | 834 | | social | 6321 | 782 | 789 | | environment | 6157 | 764 | 772 | | economics | 3994 | 487 | 519 | | culture | 3279 | 388 | 398 | | labor | 2905 | 375 | 350 | | national_security | 2865 | 339 | 338 | | ict | 2326 | 285 | 292 | | education | 2093 | 248 | 255 | ## Dataset Creation ### Curation Rationale The data was scraped from the news site [Prachathai](prachathai.com) from August 24, 2004 to November 15, 2018. The initial intention was to use the dataset as a benchmark for Thai text classification. Due to the size of the dataset, it can also be used for language modeling. ### Source Data #### Initial Data Collection and Normalization 67,889 articles wtih 51,797 tags were scraped from the news site [Prachathai](prachathai.com) from August 24, 2004 to November 15, 2018. We filtered out those articles with less than 500 characters of body text, mostly images and cartoons. #### Who are the source language producers? Prachathai.com ### Annotations #### Annotation process Tags are annotated for the news website Prachathai.com #### Who are the annotators? We assume that the reporters who wrote the articles or other Prachathai staff gave each article its tags. ### Personal and Sensitive Information We do not expect any personal and sensitive information to be present since all data are public news articles. ## Considerations for Using the Data ### Social Impact of Dataset - classification benchmark for multi-label Thai text classification ### Discussion of Biases Prachathai.com is a left-leaning, human-right-focused news site, and thus unusual news labels such as human rights and quality of life. The news articles are expected to be left-leaning in contents. ### Other Known Limitations Dataset provided for research purposes only. Please check dataset license for additional information. ## Additional Information ### Dataset Curators PyThaiNLP ### Licensing Information CC-BY-NC ### Citation Information @misc{prachathai67k, author = {cstorm125, lukkiddd }, title = {prachathai67k}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished={\\url{https://github.com/PyThaiNLP/prachathai-67k}}, } ### Contributions Thanks to [@cstorm125](https://github.com/cstorm125) for adding this dataset.
提供机构:
PyThaiNLP
原始信息汇总

数据集概述

数据集基本信息

  • 名称: prachathai67k
  • 语言: 英语(en)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 文本分类
  • 任务ID: 主题分类
  • 论文代码ID: prachathai-67k
  • 美观名称: prachathai67k

数据集结构

数据实例

数据集包含新闻文章,每篇文章包括URL、发布日期、标题、正文文本以及多个主题标签。

数据字段

  • url: 文章的URL
  • date: 文章发布日期
  • title: 文章标题
  • body_text: 文章正文
  • politics, human_rights, quality_of_life, international, social, environment, economics, culture, labor, national_security, ict, education: 二元标签,表示文章是否涉及相应主题

数据分割

分割 训练 验证 测试
文章数 54379 6721 6789
政治 31401 3852 3842
人权 12061 1458 1511
生活质量 9037 1144 1127
国际 6432 828 834
社会 6321 782 789
环境 6157 764 772
经济 3994 487 519
文化 3279 388 398
劳动 2905 375 350
国家安全 2865 339 338
信息通信技术 2326 285 292
教育 2093 248 255

数据集创建

筛选理由

数据集用于泰语文本分类的基准测试,也可用于语言建模。

源数据

  • 初始数据收集和规范化: 从Prachathai.com收集的67,889篇文章,过滤掉少于500字符正文的文章。
  • 语言生产者: Prachathai.com

注释

  • 注释过程: 新闻网站Prachathai.com的标签注释。
  • 注释者: 假设为文章作者或Prachathai员工。

个人和敏感信息

数据集不包含个人和敏感信息,所有数据均为公开新闻文章。

使用数据集的考虑

社会影响

数据集作为多标签泰语文本分类的基准。

偏见讨论

Prachathai.com是一个左倾、关注人权的新闻网站,因此新闻标签可能偏向这些主题。

其他已知限制

数据集仅供研究使用,请查阅数据集许可证获取更多信息。

附加信息

数据集创建者

PyThaiNLP

许可证信息

CC-BY-NC

引用信息

@misc{prachathai67k, author = {cstorm125, lukkiddd }, title = {prachathai67k}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished={\url{https://github.com/PyThaiNLP/prachathai-67k}}, }

贡献

感谢@cstorm125添加此数据集。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作