vn-legal-corpus

github2026-04-15 更新2026-04-14 收录

下载链接：

https://github.com/newnol/vn-legal-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个越南法律文本的数据集，经过清理和结构化处理，适用于自然语言处理（NLP）、信息检索系统、检索增强生成（RAG）以及语言模型的训练和评估。数据集来源于越南的公开法律文本，包括越南司法部的官方网站和其他官方来源。根据越南法律，这些法律文本不受版权保护，可以自由使用、复制和分发。数据集采用Creative Commons Attribution 4.0 International (CC-BY 4.0)许可证发布，允许商业和非商业用途，但需适当注明来源。

This is a dataset of Vietnamese legal texts, which has been cleaned and structured, suitable for natural language processing (NLP), information retrieval systems, retrieval-augmented generation (RAG), as well as the training and evaluation of language models. The dataset is sourced from public Vietnamese legal texts, including the official website of the Ministry of Justice of Vietnam and other official sources. According to Vietnamese law, these legal texts are not protected by copyright and may be freely used, copied and distributed. The dataset is released under the Creative Commons Attribution 4.0 International (CC-BY 4.0) license, which permits both commercial and non-commercial use with proper attribution.

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称: vn-legal-corpus
描述: 一个用于自然语言处理、搜索和人工智能应用的结构化越南法律文档语料库。
地址: https://github.com/newnol/vn-legal-corpus

数据来源

数据收集自公开可用的越南法律文件。
主要来源包括：https://vbpl.moj.gov.vn/ 及其他官方政府来源。

法律状态与许可

法律状态: 根据越南法律，法律文件不受版权保护，原始文本可自由使用、复制和分发。
许可协议: 本数据集采用知识共享署名 4.0 国际许可协议 (CC-BY 4.0)。
使用权限:
- 可用于商业和非商业目的。
- 可修改、转换和基于数据集进行构建。
- 可用于训练机器学习和人工智能模型。
- 使用时需提供适当署名。

免责声明

本仓库不声明对原始法律文件的所有权。
本仓库与越南司法部无关联，亦未获其认可。
本仓库仅提供公开数据的结构化、清理和处理版本。

主要用途

法律人工智能助手
语义搜索引擎
文档检索系统
大语言模型微调与评估
越南语自然语言处理研究

数据集结构示例

data/ ├── raw/ ├── processed/ ├── jsonl/

贡献与支持

欢迎通过改进数据质量、添加新法律来源、修复解析或格式问题以及增强元数据等方式做出贡献。
如果觉得本数据集有用，可考虑为仓库点赞。

引用要求

若使用本数据集，请引用： vn-legal-corpus by Newnol Main GitHub: https://github.com/newnol/vn-legal-corpus License: CC-BY 4.0

搜集汇总

数据集介绍

构建方式

在越南法律信息数字化进程的推动下，vn-legal-corpus 的构建遵循了系统化的数据采集与处理流程。数据集的核心来源是越南司法部官方门户网站及其他政府公开渠道，确保了法律文本的权威性与完整性。原始文档经过自动化抓取后，进入清洗与结构化处理阶段，包括去除无关格式、统一文本编码以及按法律体系进行层级分类，最终生成适用于机器处理的标准化格式，如JSON Lines，为后续分析奠定了坚实基础。

特点

该数据集显著体现了越南法律文本的独特语言结构与领域特性。内容全面覆盖了越南现行法律法规，具有高度的专业性与规范性，为自然语言处理任务提供了丰富的领域语料。在技术层面，数据集经过精心清洗与结构化整理，消除了噪声数据，并保留了法律条文间的逻辑关联，支持高效的检索与语义分析。其开放的版权状态与CC-BY 4.0许可进一步促进了学术与商业应用的广泛探索。

使用方法

针对法律人工智能与信息检索的研究需求，vn-legal-corpus 提供了多角度的应用路径。研究者可直接利用其结构化文本训练领域特定的语言模型，或构建语义检索系统以提升法律文档的查询效率。在检索增强生成场景中，该数据集能作为可靠的知识库，增强生成内容的准确性与合规性。使用时应遵循许可要求进行规范引用，并可参与社区贡献以持续优化数据质量。

背景与挑战

背景概述

随着人工智能与自然语言处理技术在法律领域的深入应用，越南法律文本的数字化与结构化需求日益凸显。在此背景下，vn-legal-corpus数据集应运而生，由Newnol Main等研究人员或机构于近年构建，旨在为越南法律文档提供一个经过清洗与结构化处理的语料库。该数据集的核心研究问题聚焦于如何高效整合越南公开法律资源，以支持法律信息检索、语义搜索及法律大语言模型的微调与评估。其影响力不仅体现在推动越南法律人工智能助手的发展，也为跨语言法律NLP研究提供了重要基础资源。

当前挑战

在解决法律领域问题时，vn-legal-corpus面临的主要挑战包括法律文本的复杂语义理解、专业术语的准确解析以及跨文档关联性建模，这些因素直接影响检索增强生成与语义搜索系统的性能。在构建过程中，挑战集中于原始数据的多源异构性、文档结构的非标准化以及法律条款的动态更新，需通过精细的清洗与结构化处理确保数据的一致性与时效性，同时需在遵守越南法律关于版权豁免的前提下，平衡数据开放性与法律合规性。

常用场景

经典使用场景

在越南法律信息处理领域，vn-legal-corpus数据集为自然语言处理研究提供了标准化的文本资源。该数据集经过清洗和结构化处理，常用于训练和评估法律文本分类、实体识别及关系抽取模型，支持研究者探索越南法律语言的语法和语义特征，为构建高效的法律文本分析系统奠定基础。

衍生相关工作

基于vn-legal-corpus，研究者已衍生出多项经典工作，包括针对越南法律文本的预训练语言模型微调、检索增强生成系统设计以及跨领域法律知识图谱构建。这些工作不仅丰富了越南法律人工智能的生态系统，还为其他语种的法律文本处理提供了可借鉴的技术框架和方法论。

数据集最近研究