five

phapdien-moj-gov-vn

收藏
Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/tmquan/phapdien-moj-gov-vn
下载链接
链接失效反馈
官方服务:
资源简介:
Bộ Pháp Điển Việt Nam 数据集是越南司法部发布的官方法律条文汇编,包含64,464条法律条文(Điều),涵盖42个主题(Chủ đề)和202个科目(Đề mục)。每条条文都包含标准化全文、所属章节、科目和主题信息,以及指向原始法律文件的链接。数据集还提供了越南语-英语双语法律词典,包括42个主题、202个科目和116个法律术语的翻译。该数据集适用于文本分类、文本检索、问答和文本生成等自然语言处理任务。数据集的规模为10K到100K之间,采用CC-BY-4.0许可协议。

The Bộ Pháp Điển Việt Nam dataset is an official compilation of legal provisions released by the Vietnamese Ministry of Justice, containing 64,464 legal articles (Điều) covering 42 topics (Chủ đề) and 202 subjects (Đề mục). Each article includes standardized full text, chapter, subject, and topic information, as well as links to original legal documents. The dataset also provides a Vietnamese-English bilingual legal dictionary, including translations for 42 topics, 202 subjects, and 116 legal terms. It is suitable for natural language processing tasks such as text classification, text retrieval, Q&A, and text generation. The dataset size ranges from 10K to 100K and is licensed under CC-BY-4.0.
创建时间:
2026-05-09
原始信息汇总

数据集概述:Bộ Pháp Điển Việt Nam (phapdien.moj.gov.vn)

该数据集是越南法典(Bộ Pháp Điển) 的条文级(Điều)语料库,由越南司法部发布,为官方编纂的越南法律集合。数据集以条文为单位,提供经过标准化处理的完整法律文本、章节归属、主题与议题信息,以及指向原始法律文本的链接。

核心特性

  • 语言:越南语 (vi)
  • 许可协议:Creative Commons Attribution 4.0 International (cc-by-4.0)
  • 数据规模
    • 条文(Articles):64,464 条
    • 议题(Subjects):202 个
    • 主题(Topics):42 个
    • 总字符数:约 8,997 万字符
    • 总词数:约 1,984 万词
  • 适用任务:文本分类、文本检索、问答、文本生成

数据结构与层级

越南法典采用三层结构组织数据:

  1. 主题 (Chủ đề / Topic):共 42 个,如“社会秩序与安全”、“贸易、投资与证券”。
  2. 议题 (Đề mục / Subject):共 202 个,每个主题下包含若干议题。
  3. 条文 (Điều / Article):共 64,464 条,是数据集的基本单位。

每个条文都分配了一个稳定的层级锚点(如 Điều 1.1.LQ.1),在整个数据集中具有唯一标识。

数据配置 (Configurations)

数据集提供多种配置,便于不同场景使用:

配置名称 描述 数据文件
articles 主表:包含全部 64,464 条法律条文及其元数据。 articles.parquet
demucs 议题元数据表:包含 202 个议题的详细信息(每行一个议题)。 demucs.parquet
tree_nodes 主题/议题树:以树状节点形式存储主题和议题的层级关系。 tree_nodes.parquet
ontology_topics 主题本体表:42 个主题的双语(越南语/英语)信息。 ontology_topics.parquet
ontology_demucs 议题本体表:202 个议题的双语信息,包含其所属主题。 ontology_demucs.parquet
ontology_glossary 法律术语词汇表:116 个法律术语的双语词典。 ontology_glossary.parquet

主表 (articles) 字段说明

字段名 类型 描述
demuc_id string 该条文所属议题的唯一标识符 (UUID)。
topic_id string 该议题所属主题的唯一标识符 (UUID)。
topic_number string 主题的显示序号(1-45)。
topic_title string 主题名称(如“An ninh quốc gia”)。
demuc_number string 议题在所属主题中的显示序号。
demuc_title string 议题名称。
article_anchor string 稳定的层级锚点(例如 01001000...)。
article_title string 完整的条文标题,包含“Điều N.M.X.Y”前缀和标题。
chapter_title string 条文所属的章节标题,如“Chương I - …”(99.1% 的条目有此信息)。
source_note_text string 指向原始法律文本的引用(100% 的条目有此信息)。
source_links list source_note_text 中的超链接,通常指向 vbpl.vn
related_note_text string 指向数据集中其他条目的交叉引用(29% 的条目有此信息)。
content_text string 标准化后的完整条文正文。
content_char_len int64 content_text 的字符数。
content_word_count int64 content_text 的词数。
source_url string 指向 phapdien.moj.gov.vn 上该条目的直接深度链接。
scraped_at string 数据抓取的时间戳 (ISO-8601 UTC)。

附加资源:双语本体 (Vietnamese ↔ English Ontology)

数据集附带了一个精心制作的双语法律本体,有助于理解越南法律体系。它包含三个部分:

  • 42 个主题 (ontology_topics):每个主题提供越南语和英语名称、条文数和议题数。
  • 202 个议题 (ontology_demucs):每个议题提供其父级主题、双语名称和条文数。
  • 116 个法律术语 (ontology_glossary):包括法律文件类型、机构、法院等术语的双语对照表,并按类别(如 instrument, court, procedure)组织。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于越南司法部官方发布的《越南法典》构建,通过定制爬虫程序从 phapdien.moj.gov.vn 平台系统采集而来。构建过程分为三个阶段:首先,爬取主题-子题的两级本体树结构,获取42个主题与202个子题的完整层次关系及其唯一标识符;其次,针对每个子题下的所有条文,逐条抓取标准化全文、章节标题、来源信息及关联链接等字段;最后,对原始文本实施空白符压缩与非断空格清洗等预处理操作,确保语料的规范性与一致性。整个采集工作覆盖了越南法典现行版本的全部64,464条法律条文。
特点
该数据集具备多重显著特点。其一,结构严谨,严格遵循越南法典“主题-子题-条文”的三级本体架构,每条条文均拥有稳定的层次化锚标识符,便于跨语料唯一引用。其二,内容完整,99.1%的条文附有章节标题,100%的条文保留原始法律文本的来源引用与回溯链接至国家法律数据库 vbpl.vn。其三,语义丰富,29%的条文包含与其他条文的交叉引用关系,71.5%的条文在正文中提及至少一种原始法律文书类型。此外,数据集附带一份手工编纂的越英双语法律术语词典,涵盖全部主题、子题及116个核心法律概念。
使用方法
该数据集通过 HuggingFace Datasets 库提供多种配置加载方式。主配置 articles 包含64,464条条文记录,每条记录包含主题编号、子题名称、条文锚标识、章节标题、标准化全文、字符数与词数统计、原始来源链接等字段,适用于文本分类、信息检索与文本生成等任务。配置 demucs 与 tree_nodes 分别提供子题元数据与本体树节点信息,便于层次结构分析。ontology_topics、ontology_demucs 与 ontology_glossary 三个本体配置则用于加载越英双语主题、子题及法律术语词典。用户可按需加载单一配置并利用主题标识符与条文标识符在不同表格间进行关联查询。
背景与挑战
背景概述
phapdien-moj-gov-vn数据集由越南司法部于近期构建并发布,旨在系统化呈现越南官方法典《Bộ Pháp Điển》的全部条文。该数据集由研究人员tmquan主导,收录了超过64,000条经过规范化处理的法条,每条均附带稳定层级标识、章节归属、主题分类及来源链接,覆盖42个主题与202个科目,为越南法律文本的数字化与计算分析奠定了坚实基础。作为首个大规模、结构化的越南法律语料库,其发布显著推动了低资源语言法律自然语言处理领域的发展,为文本分类、信息检索、问答系统及法律文本生成等任务提供了权威基准,对越南乃至东南亚地区的法律智能化研究具有里程碑意义。
当前挑战
该数据集所解决的核心领域问题在于越南法律文本的数字化与结构化处理,传统法律检索依赖人工且效率低下,而本数据集通过标准化编码与层级分类,为自动化分析提供了数据基础。在构建过程中,主要挑战包括:如何从官方网站高效爬取并解析超过6万条法条,确保层级结构完整;如何对庞杂的法律文本进行清洗与规范化,如消除空白、统一编码格式;以及如何建立稳定的唯一标识符体系,确保跨领域引用的一致性与可追溯性。此外,29%的条文包含交叉引用,这对数据建模中的关联关系处理提出了更高要求,同时需保证100%的源链接有效性以维护数据权威性。
常用场景
经典使用场景
越南法律典数据集作为越南司法部官方发布的法典化文本库,其核心应用场景聚焦于法律文本的分类与检索任务。通过将64,464条法律条文按42个主题和202个细目进行层级化组织,研究者得以构建精细的法律文本分类模型,实现对越南法律体系的系统性分析与理解。该数据集提供的稳定层级锚点标识符和标准化全文内容,为跨条文关联分析提供了可靠的基准,使其成为越南法律自然语言处理研究的基石资源。
实际应用
在实践层面,该数据集支撑着越南司法体系中的智能法律咨询系统开发、自动化合规审查工具构建以及法律教育平台的知识库建设。例如,司法从业者可利用该数据集训练的法律问答模型快速定位特定领域的适用条文,企业法务部门则能够基于主题分类结果高效完成跨境投资相关的法律尽职调查。其内置的越英双语法律术语词典更打破了语言壁垒,使国际法律研究者能够无障碍地参与越南法律体系的比较法研究。
衍生相关工作
围绕该数据集已衍生出一系列具有奠基意义的研究工作,包括基于法律条文的越南语文本生成模型微调、法律本体对齐方法研究以及跨语言法律信息检索系统的构建。特别是该数据集的层级锚点结构启发了多篇关于法律文本细粒度语义匹配的学术论文,其公开的本体文件(ontolgy_topics等)被广泛采用为越南法律知识图谱的标准参照基准。此外,数据集提供的70,101个溯源链接为法律引用网络分析提供了独特的实验床,催生了关于越南法律体系演化模式的计量法学研究新方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作