five

pythainlp/thaigov-v2-corpus-31032024

收藏
Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/thaigov-v2-corpus-31032024
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: title dtype: string - name: context dtype: string - name: raw dtype: string - name: url dtype: string splits: - name: train num_bytes: 752018871 num_examples: 44680 download_size: 248126496 dataset_size: 752018871 configs: - config_name: default data_files: - split: train path: data/train-* license: cc0-1.0 task_categories: - text-generation language: - th --- # ThaiGov V2 Corpus GitHub: [https://github.com/PyThaiNLP/thaigov-v2-corpus](https://github.com/PyThaiNLP/thaigov-v2-corpus) ## English - Data from Thai government website. https://www.thaigov.go.th - This part of PyThaiNLP Project. - Compiled by Mr.Wannaphong Phatthiyaphaibun - License Dataset is public domain. ## Data format - 1 file, 1 news, which is extracted from 1 url. ``` topic (Blank line) content content content content content (Blank line) ที่มา (URL source) : http://www.thaigov.go.th/news/contents/details/NNN ``` ## Thai - เป็นข้อมูลที่รวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย https://www.thaigov.go.th - โครงการนี้เป็นส่วนหนึ่งในแผนพัฒนา [PyThaiNLP](https://github.com/PyThaiNLP/) - รวบรวมโดย นาย วรรณพงษ์ ภัททิยไพบูลย์ - ข้อมูลที่รวบรวมในคลังข้อความนี้เป็นสาธารณสมบัติ (public domain) ตามพ.ร.บ.ลิขสิทธิ์ พ.ศ. 2537 มาตรา 7 (สิ่งต่อไปนี้ไม่ถือว่าเป็นงานอันมีลิขสิทธิ์ตามพระราชบัญญัตินี้ (1) ข่าวประจำวัน และข้อเท็จจริงต่างๆ ที่มีลักษณะเป็นเพียงข่าวสารอันมิใช่งานในแผนกวรรณคดี แผนกวิทยาศาสตร์ หรือแผนกศิลปะ [...] (3) ระเบียบ ข้อบังคับ ประกาศ คำสั่ง คำชี้แจง และหนังสือตอบโต้ของกระทรวง ทบวง กรม หรือหน่วยงานอื่นใดของรัฐหรือของท้องถิ่น [...]) **สามารถติดตามประวัติการแก้ไขคลังข้อความนี้ได้ผ่านระบบ Git** ### จำนวนข่าว - วันเริ่มต้นโครงการ 17 ก.ย. 2563 ### รูปแบบข้อมูล - 1 ไฟล์ 1 ข่าว ซึ่งดึงมาจาก 1 url ``` หัวเรื่อง (บรรทัดว่าง) เนื้อความ เนื้อความ เนื้อความ เนื้อความ เนื้อความ (บรรทัดว่าง) ที่มา : http://www.thaigov.go.th/news/contents/details/NNN ``` ### รายละเอียดชื่อไฟล์ - ชื่อหมวดหมู่_จำนวนที่ของข่าว.txt ### Script - run.py สำหรับเก็บข้อมูลจากหน้าเว็บ โดยจะดึงหน้าเว็บจาก url ```http://www.thaigov.go.th/news/contents/details/NNN``` โดยที่ NNN คือเลขจำนวนเต็ม - เปลี่ยนค่าตัวแปร i ในไฟล์เป็นเลขที่ต้องการเริ่มเก็บ - clean.py สำหรับทำความสะอาดข้อมูลเบื้องต้น โดยจะลบช่องว่างหน้าและท้ายบรรทัด ลบบรรทัดว่าง - ```clean.py ชื่อไฟล์``` - ```clean.py ชื่อไฟล์1 ชื่อไฟล์2``` - ```clean.py *.txt``` We build Thai NLP. PyThaiNLP
提供机构:
pythainlp
原始信息汇总

数据集概述

数据集名称

  • ThaiGov V2 Corpus

数据集特征

  • title: 数据类型为字符串
  • context: 数据类型为字符串
  • raw: 数据类型为字符串
  • url: 数据类型为字符串

数据集分割

  • train: 包含44680个样本,总大小为752018871字节

数据集大小

  • 下载大小: 248126496字节
  • 数据集总大小: 752018871字节

许可证

  • cc0-1.0

任务类别

  • text-generation

语言

  • th

数据格式

  • 每个文件包含一条新闻,提取自一个URL。

  • 文件内容格式:

    标题 (空行) 内容 内容 内容 内容 内容 (空行) 来源(URL源) : http://www.thaigov.go.th/news/contents/details/NNN

文件命名规则

  • 分类名称_新闻编号.txt
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作