five

ai-readable-gazette-kr

收藏
github2026-04-12 更新2026-04-17 收录
下载链接:
https://github.com/hosungseo/ai-readable-gazette-kr
下载链接
链接失效反馈
官方服务:
资源简介:
대한민국 관보(韩国政府公报)约13万份文档的Markdown格式数据集,经过OCR修正,旨在为人和AI提供可读性强的数据。

A Markdown-formatted dataset containing approximately 130,000 documents from the Republic of Korea Official Gazette (대한민국 관보), which has been OCR-corrected and is designed to provide highly readable data for both humans and AI.
创建时间:
2026-04-11
原始信息汇总

ai-readable-gazette-kr 数据集概述

数据集简介

这是一个由大韩民国官报(관보)约13万份文档衍生的、人与AI皆可阅读的语料库。原始PDF通过OCR转换为Markdown格式,并基于字典对OCR产生的乱码进行了累积校正。

基本属性

  • 文档数量: 128,403份
  • 日期分组: 1,474组
  • 覆盖时间范围: 2020-01-02 至 2026-04-07
  • 字典版本: v8

数据来源与性质

  • 原始来源: 大韩民国行政安全部 电子官报 (gwanbo.go.kr) 的PDF公共数据。
  • 转换流程: PDF → opendataloader OCR → readable-final markdown → 基于字典的校正 → derived/readable-corrected/
  • 数据性质: 原始官报根据大韩民国著作权法第7条,属于不受保护的著作物,可自由使用。本存储库的校正衍生版本也尽可能贡献至公共领域(CC0 1.0水平)。

数据覆盖范围

  • 机构分类与数量:
    • 中央部门: 约340个机构,约108,800份文档
    • 司法: 约70个机构,约7,700份文档
    • 教育: 约550个机构,约4,100份文档
    • 其他: 约370个机构,约4,800份文档
    • 地方政府: 约290个机构(广域+基础),约3,300份文档
    • 立法: 2个机构,66份文档
    • 公共机构: 12个机构,40份文档
  • 精确数据可在 docs/data/meta.json 或实时阅读器中查看。

数据访问与使用方式

  • 实时阅读器(供人阅读): https://hosungseo.github.io/ai-readable-gazette-kr/
  • 下游LLM/NLP处理:
    • 数据按 derived/readable-corrected/YYYY-MM-DD/NNN_<机构>_<标题>.md 模式组织。
    • 文件包含frontmatter(title / publisher / date / source_raw_md),正文可直接用于分块、嵌入或RAG索引。
  • 静态索引API:
    • docs/data/meta.json: 包含机构、日期、分类、热力图等元数据。
    • docs/data/dates/YYYY-MM-DD.json: 每日文档列表。
    • docs/data/titles.json: 搜索索引。
    • 所有JSON文件均可无CORS限制直接获取。
  • 原始PDF追踪:
    • 每个Markdown文件的frontmatter中的 source_raw_md 字段链接至原始PDF标识符。
    • 正文顶部 # 标题 下方可能存在 원문 PDF: <URL> 行,可直接点击。

校正流程与版本

校正管道由 scripts/build_readable_corrected.py 脚本执行,平均耗时2-3分钟。主要步骤包括通用词汇、金融/机构名、关系词、地名、法令/公职、残留标记、表格单元格、正则表达式模式等多轮替换。

关键校正版本:

  • v4-v7: 针对高频残留字符,基于邻居字符分布验证后,进行了单字符全局替换(例如:옄→위, 뮈→번, 왴→이, 죁→직等)。
  • v8:
    • 将约300万个损坏的图像链接替换为 *[원본 이미지 N]* 标记。
    • 在索引构建阶段应用广域+基础自治团体结合标签(如강원도 화천군)。
    • 修剪校正输出中已消失的源文件。

文件目录结构

scripts/ # 构建与校正脚本 build_readable_corrected.py extract_residual_tokens.py dump_char_contexts.py analyze_char_ambiguity.py build_pages_index.py reports/ # 残留标记分析报告 docs/ # 静态阅读器源码 data/ # 静态索引数据 meta.json titles.json dates/ derived/ # 核心校正数据 readable-corrected/ YYYY-MM-DD/NNN_*.md

许可信息

  • 代码(scripts, docs/*.html|css|js, 工作流, 配置文件): MIT License
  • 数据derived/readable-corrected/): 原始官报可自由使用,衍生语料库声明贡献至公共领域(CC0 1.0水平)。详细依据见 NOTICE.md
搜集汇总
数据集介绍
main_image_url
构建方式
在公共数据开放与机器可读性日益受到重视的背景下,该数据集通过系统化流程将韩国政府公报转化为结构化文本。其构建始于从韩国行政安全部电子公报系统获取的原始PDF文件,随后利用opendataloader工具进行光学字符识别,生成初步的Markdown格式文本。核心环节在于设计了一套多层次、基于词典的累积校正管道,依次对通用词汇、机构名称、法律术语、地名及表格单元格等进行精准替换,并引入正则表达式模式处理特定数字与单位组合。整个流程通过自动化脚本执行,确保了约13万份文档在保持原意的基础上,显著提升了文本的机器可读性与准确性。
特点
该数据集最显著的特点在于其双重可读性设计,既服务于人类阅读,也优化了机器处理。它覆盖了2020年至2026年间超过12.8万份政府公报文档,并按照日期与机构进行了精细索引。数据集通过持续的版本迭代,累积修复了OCR过程中产生的大量字符错误,包括对外来语、专业复合词及高频残留标记的系统性校正。此外,数据集以静态Markdown文件形式提供,每份文档均包含结构化的元数据,并配套了完整的静态JSON索引与交互式在线阅读器,实现了无需复杂后端即可进行高效检索与内容浏览。
使用方法
对于希望直接浏览内容的用户,可通过项目提供的静态HTML阅读器在线访问,该界面支持按日期、机构或标题进行检索与过滤。研究人员或开发者若需进行下游自然语言处理或大语言模型应用,可直接使用`derived/readable-corrected/`目录下的Markdown文件,这些文件包含标准的前置元数据与校正后的正文,便于进行文本分块、嵌入或检索增强生成等操作。数据集还提供了完整的静态JSON索引,允许外部应用通过HTTP请求直接获取元数据与文档列表,构建自定义查询接口。所有使用均建议与原始PDF进行交叉验证,以确保官方信息的准确性。
背景与挑战
背景概述
在数字政府与公共数据开放的浪潮中,韩国政府公报作为官方信息发布的核心载体,其机器可读性与结构化处理成为提升公共数据利用效率的关键。ai-readable-gazette-kr数据集由开发者hosungseo等人于2024年前后构建,旨在将约13万份韩国政府公报PDF文档转化为经过OCR校正的Markdown格式,以解决原始PDF在自然语言处理与信息检索中的障碍。该数据集覆盖2020年至2026年的公报内容,涉及中央部委、司法、教育等近1600个机构,通过字典累积校正技术修复了OCR识别中的字符错误,为研究者、记者与公民提供了可共同阅读与分析的结构化语料,推动了公共数据在人工智能辅助下的透明化与可访问性。
当前挑战
该数据集致力于解决政府公报文本的机器可读性与信息提取难题,其核心挑战在于原始PDF的OCR识别错误率高,尤其是韩文特定字符与复合词的识别偏差,导致后续分析准确性受损。构建过程中,团队面临多阶段挑战:首先,需设计高效的校正管道,通过多轮字典匹配与正则表达式处理,逐步修复金融术语、法律条文、地名等领域的错误识别;其次,在全局单字符替换时,必须避免过度校正引发的语义扭曲,例如历史版本中曾出现的“모친동산”等误修正案例,需依赖邻接字符分布分析确保映射唯一性。此外,大规模语料的结构化索引与静态部署也要求平衡数据完整性与系统性能,以支持下游的检索与自然语言处理任务。
常用场景
经典使用场景
在公共行政与法律信息数字化领域,ai-readable-gazette-kr数据集为研究人员提供了经过结构化处理与OCR纠错的韩国政府公报文本。该数据集最经典的使用场景在于支持法律条文与政策文件的跨时间对比分析。通过将约13万份原始PDF文档转换为机器可读的Markdown格式,并应用基于词典的累积纠错机制,研究者能够高效地按机构、日期或事件类别筛选文档,从而深入追踪法规演变轨迹或政策实施脉络。
实际应用
在实际应用层面,该数据集为新闻调查、公民监督与政府效能评估提供了可靠的数据基础。记者可利用其按机构与时间维度的检索功能,快速定位特定政策变更或行政公告;开发人员则可基于其标准化的Markdown格式与静态JSON索引,构建面向公众的政策解读工具或法规问答系统。此外,数据集支持直接集成于检索增强生成技术栈,为公共服务领域的智能代理开发提供高质量语料。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于公共信息可及性增强与法律文本计算分析。例如,基于其结构化索引开发的静态阅读器实现了交互式文档浏览与多维度过滤;部分研究则利用其纠错后的语料训练领域特定的语言模型,以提升韩文法律文本的实体识别与摘要生成性能。这些工作共同推动了政府公报从被动公开向主动可计算资源的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作