korean-law-articles
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/Wookhyeon/korean-law-articles
下载链接
链接失效反馈官方服务:
资源简介:
Korean Law Articles 数据集是一个包含韩国现行法律全文的全面数据集,共收集了5,583条法律(总数为5,584条,其中1条因来源服务器未提供正文而缺失)。该数据集通过韩国法制处国家法令信息OPEN API(`lawService.do`)收集,适用于文本生成、文本分类、问答、摘要和特征提取等多种自然语言处理任务。数据集包含丰富的字段信息,如法律ID、法令名称、法令类型、主管部门、公布日期、施行日期、条文内容等。每条法律记录还包括条文列表(编号、标题、内容、施行日期)和全文文本(所有条文合并)。数据集规模适中,平均每条法律包含约8个条文,全文平均长度约2,200字。数据集采用CC0-1.0许可,要求使用时注明来源。该数据集可用于韩国法律领域的大型语言模型预训练/微调、法令检索/嵌入基准测试、法律问答系统评估、法律NER/摘要标注种子数据以及主管部门分析等场景。数据集每6小时自动更新一次,确保包含最新的法律修订内容。
The Korean Law Articles Dataset is a comprehensive dataset containing the full texts of currently effective South Korean laws. A total of 5,583 legal documents were collected, with the original total being 5,584, and 1 law missing because its full text was not provided by the source server. This dataset was collected via the National Law Information OPEN API (`lawService.do`) provided by the Ministry of Justice of the Republic of Korea. It supports a wide range of natural language processing (NLP) tasks, including text generation, text classification, question answering, text summarization, and feature extraction. The dataset includes rich field information such as law ID, decree name, decree type, competent authority, promulgation date, enforcement date, and article content. Each law record also includes an article list (with article number, title, content, and enforcement date) and the full merged text of all articles. The dataset is of moderate scale, with an average of approximately 8 articles per law and an average full text length of about 2,200 words. It is licensed under CC0-1.0, and users are required to indicate the source when using the dataset. Potential use cases of this dataset include pre-training or fine-tuning large language models (LLMs) for the South Korean legal domain, legal document retrieval and embedding benchmark testing, evaluation of legal question answering systems, seed data for legal NER and summarization annotation, and competent authority analysis. The dataset is automatically updated every 6 hours to ensure it contains the latest legal revisions.
创建时间:
2026-04-29
搜集汇总
数据集介绍

构建方式
该数据集源自韩国法制处国家法令信息开放API(lawService.do),通过开源工具discovery-engine以每六小时一次的频率自动抓取,并于每周日同步至HuggingFace平台,实现了对韩国现行5,583部法令全文的系统性采集与持续更新。每条数据均包含法令编号、名称、类型、主管机关、公布与施行日期、条文列表及全文等结构化字段,并以Parquet格式存储,大小约54MB,为自然语言处理任务提供了高质量的韩语法律语料。
特点
数据集覆盖了韩国现行全部法令,包括法律、总统令、总理令、部令等类型,平均每部法令包含约8条条文,全文平均长度约2,200字。每条记录不仅保留了法令元数据(如公编号、修改类型、修改理由),还提供了拼接后的完整文本与附则信息,便于直接用于大语言模型输入。此外,数据集已预先剔除仅有的1条来源不可用记录,确保了数据的完整性与可靠性。
使用方法
用户可通过HuggingFace的datasets库直接加载训练集,每条记录以字典形式返回,支持按法令或条文维度展开分析。例如,可使用itertools.chain.from_iterable将条文列表扁平化为单个条文级别的数据框架。数据集适用于法律领域的大语言模型预训练与微调、法律检索与排序基准测试、问答系统构建、命名实体识别及摘要生成等任务,并已部署基于RAG的实时法律问答演示(Korean Law Q&A)。
背景与挑战
背景概述
韩国法律条文数据集(Korean Law Articles)由研究者Wookhyeon于2026年创建,依托韩国法制处国家法律信息开放API,系统采集了韩国现行5,583部法律的全文内容。该数据集覆盖法律ID、条文列表、全文文本、修正历史等丰富字段,旨在为自然语言处理领域提供高质量、结构化的韩语法律语料。其发布填补了韩语法律NLP领域大规模、标准化数据资源的空白,显著推动了法律文本生成、分类、问答、摘要及特征提取等任务的研究进展。作为CC0-1.0许可的开源资源,该数据集已支撑起可交互的RAG法律问答系统,并成为韩语法律领域LLM预训练与微调、法律检索与评估基准构建、以及法律NER和摘要标注的重要基础数据源,对法律信息化与人工智能交叉领域产生了深远影响。
当前挑战
该数据集所应对的领域核心挑战在于:韩语法律文本具有高度结构化、术语专业、语义严谨且常包含交叉引用等特性,传统通用NLP模型难以准确理解与推理,亟需专门的高质量语料以提升法律智能应用的可靠性与准确性。数据构建过程中亦面临多重技术难点:一是数据源依赖单一官方API,存在如1部法律(MST 200755)因服务端返回404而缺失全文的局限性;二是法律文本中附表、格式文件等附属内容需通过额外API获取,当前版本未能涵盖;三是英文版法律等扩展内容需经专门申请,增加了数据全面覆盖的复杂度;四是需建立每6小时自动更新的爬取机制与每周同步至HuggingFace的流程,确保数据与官方修订保持实时一致,对工程化运维提出了持续要求。
常用场景
经典使用场景
韩国法律条文数据集汇集了来自韩国法制处国家法律信息中心开放API的5583部现行法律全文,涵盖了法律、总统令、总理令、部令等多种法律类型。每个法律条目包含法律ID、标题、类型、主管部委、颁布日期、施行日期以及详细的逐条条文和全文文本。该数据集的经典使用场景在于为韩国法律自然语言处理提供高质量的领域专用语料库,支持文本生成、文本分类、问答、摘要和特征提取等多种任务,可广泛应用于法律文本的语义理解与分析。
衍生相关工作
该数据集衍生了一系列重要的相关研究工作,包括基于韩国法律文本的领域专用语言模型预训练与微调、法律文本嵌入模型的基准评估、以及法律问答系统的性能测试。数据集提供了完整的法律结构信息,催生了逐条条文级别的细粒度法律分析工作,如法律修改历史追踪、法律条款影响分析和跨法律文本关联挖掘。此外,基于该数据集的标准化法律文本格式,研究人员能够开发法律文档自动分类与摘要系统,以及法律领域命名实体识别与关系抽取模型,形成了韩国法律NLP的丰富研究生态。
数据集最近研究
最新研究方向
当前,korean-law-articles数据集在韩国法律与自然语言处理交叉领域展现出前沿研究价值。该数据集收录了韩国现行法律5,583部全文,依托于法制处国家法令信息开放API,并整合了基于RAG的实时问答聊天机器人,已部署于Gradio Space,实现了自然语言查询下的精准法律条文检索与可追溯引用。这种检索增强生成技术的应用有效缓解了大模型在法律领域的幻觉问题,强化了人工智能在法律咨询、文书自动生成等场景中的可靠性。此外,该数据集还深度支撑了韩国法律领域大语言模型的预训练与微调,催生了法律信息检索、法律命名实体识别、法律文本摘要等一系列专项任务的数据集与评估基准,推动韩国法律人工智能从概念验证迈向规模化落地,对数字法治建设与司法智能化演进具有标志性意义。
以上内容由遇见数据集搜集并总结生成



