five

openlawdata_soc_ratchakitcha

收藏
github2026-02-11 更新2026-01-22 收录
下载链接:
https://github.com/dtinth/openlawdata-bigquery
下载链接
链接失效反馈
官方服务:
资源简介:
该项目将Open Law Data Thailand的数据集镜像到Google BigQuery,以便更方便地查询数据。数据集包含两个表:`meta`表存储文档的元数据(如标题、发布日期、类别、卷、部分),`ocr_iapp`表存储文档的OCR结果(完整文本,markdown格式)。

This project mirrors the Open Law Data Thailand dataset to Google BigQuery to enable more convenient data querying. The dataset contains two tables: the `meta` table stores document metadata including title, release date, category, volume and section, while the `ocr_iapp` table stores the OCR results of the documents, namely the full text in markdown format.
创建时间:
2026-01-17
原始信息汇总

openlawdata-bigquery 数据集概述

数据集来源

  • 本项目是 Open Law Data Thailand 项目数据集的镜像。
  • 原始数据集托管于 HuggingFace: https://huggingface.co/datasets/open-law-data-thailand。
  • 本项目将数据同步至 Google BigQuery 以提供便捷的查询功能。

数据访问与平台

  • 数据集在 Google BigQuery 上公开且免费访问。
  • 用户可使用 BigQuery Sandbox 通过网页浏览器免费分析数据,仅需 Google 账户,无需安装额外软件或绑定信用卡。
  • BigQuery 数据集地址: sourceinth.openlawdata_soc_ratchakitcha

数据表结构

数据集包含以下两个表:

表名 描述 数据量(行)
meta 文档元数据(标题、发布日期、类别、卷、部分) 约 136 万
ocr_iapp 文档 OCR 结果(完整文本,Markdown 格式) 约 30 万

数据表模式(Schema)

两个表具有相同的结构:

列名 类型 描述
content JSON 文档主要内容数据
filename STRING 源文件名
line_number INT64 源文件中的行号
publish_month DATE 发布月份(用于分区)
file_commit STRING 源文件的 Git 提交哈希值

使用示例

以下为在 BigQuery 中查询数据的示例:

1. 统计每年公告数量

sql SELECT EXTRACT(YEAR FROM publish_month) AS year, COUNT(*) AS articles FROM sourceinth.openlawdata_soc_ratchakitcha.meta GROUP BY year ORDER BY year DESC LIMIT 10

2. 查找 2024 年颁布的法律(พระราชบัญญัติ)

sql SELECT JSON_VALUE(content, $.doctitle) AS title, JSON_VALUE(content, $.publishDate) AS publish_date FROM sourceinth.openlawdata_soc_ratchakitcha.meta WHERE JSON_VALUE(content, $.doctitle) LIKE %พระราชบัญญัติ% AND publish_month >= 2024-01-01 LIMIT 10

3. 在 OCR 文本中搜索特定内容

sql SELECT JSON_VALUE(content, $.pdf_file) AS pdf_file, SUBSTR(JSON_VALUE(content, $.data.ocr_results[0].markdown_output), 1, 500) AS text_preview FROM sourceinth.openlawdata_soc_ratchakitcha.ocr_iapp WHERE JSON_VALUE(content, $.data.ocr_results[0].markdown_output) LIKE %สมรส% AND publish_month >= 2024-01-01 ORDER BY publish_month DESC LIMIT 10

数据同步与维护

  • 数据通过 GitHub Actions 每日自动从 HuggingFace 同步至 BigQuery。
  • 技术栈:Bun, TypeScript, @google-cloud/bigquery。
搜集汇总
数据集介绍
main_image_url
构建方式
在泰国法律数据开放运动的背景下,openlawdata_soc_ratchakitcha数据集通过自动化流程构建而成。该项目作为Open Law Data Thailand倡议的镜像,每日借助GitHub Actions将原始数据从HuggingFace平台同步至Google BigQuery。数据源主要包含官方发布的《ราชกิจจานุเบกษา》(政府公报)文档,经过系统化采集与转换,形成结构化的元数据与OCR文本。构建过程中,文档被解析为JSON格式,并附加文件名、行号及发布月份等关键信息,确保了数据的完整性与可追溯性。
特点
该数据集的核心特点在于其规模庞大且高度结构化。元数据表收录约136万条记录,涵盖法律文档的标题、发布日期、分类及卷期等详细信息;OCR文本表则提供约30万份文档的完整识别结果,以Markdown格式呈现。所有数据均按发布月份分区存储,优化了查询效率。数据集采用统一的Schema设计,每个条目均包含原始JSON内容、文件来源及版本哈希,既保留了原始信息的丰富性,又支持灵活的字段提取与分析。
使用方法
用户可通过Google BigQuery Sandbox免费访问该数据集,无需安装额外软件或绑定信用卡。在BigQuery控制台中,直接编写SQL查询即可进行数据分析。例如,可统计历年公告数量、筛选特定年份的法律条文,或基于OCR结果检索关键词。数据集支持分区过滤和JSON函数解析,显著提升查询性能。开发者亦可利用自动化同步机制获取最新数据,结合TypeScript等技术栈进行二次开发,实现法律文本的深度挖掘与研究应用。
背景与挑战
背景概述
在数字人文与法律信息学领域,泰国开放法律数据项目(Open Law Data Thailand)于近年推出了openlawdata_soc_ratchakitcha数据集,旨在系统化地整理与公开泰国官方法律文献。该数据集由泰国本土研究机构或开源社区主导构建,核心研究问题聚焦于如何将传统的法律文本转化为结构化、可查询的数字资源,以促进法律透明度与学术研究。通过整合《ราชกิจจานุเบกษา》(政府公报)的历史文档,数据集不仅为法律文本挖掘提供了基础,也为政策分析、历史研究及自然语言处理任务开辟了新的数据途径,对东南亚地区的法律数字化进程产生了积极影响。
当前挑战
该数据集致力于解决法律文档数字化与信息检索的领域挑战,具体包括应对非结构化文本的语义解析、多语言(泰语)法律术语的标准化处理,以及大规模文档的时效性更新问题。在构建过程中,团队面临了原始资料格式异构、光学字符识别(OCR)技术在历史文档上的准确率局限,以及数据清洗与元数据标注的复杂性等难题。这些挑战要求持续的技术优化与领域知识融合,以确保数据质量与可用性。
常用场景
经典使用场景
在泰国法律信息数字化研究领域,openlawdata_soc_ratchakitcha数据集为学者提供了便捷的查询与分析平台。其经典使用场景集中于对泰国《皇家公报》历史文档的文本挖掘与法律条文追溯,研究者可通过BigQuery平台执行结构化查询,例如按年份统计公告数量或检索特定法律术语,从而高效探索法律文本的演变规律与发布趋势。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于OCR文本的法律文档自动分类系统、法律术语提取模型以及法律历史趋势的可视化分析工具。这些工作进一步拓展了数据集的学术价值,例如开发了用于法律文本相似性检测的算法,或构建了泰国法律知识图谱,为智能法律辅助系统的开发奠定了基础。
数据集最近研究
最新研究方向
在泰国法律数据开放化与数字化的浪潮中,openlawdata_soc_ratchakitcha数据集作为泰国官方法律公告的权威集合,正推动法律信息检索与分析的前沿探索。当前研究聚焦于利用自然语言处理技术对OCR文本进行深度解析,结合元数据的时间序列分析,以揭示法律条文的历史演变规律与社会影响。这一方向不仅响应了全球法律科技领域对智能化、可访问性数据的需求,也为政策制定者与学术界提供了量化研究的基础,促进了法律透明度与司法效率的提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作