huyvogia/vn-land-law-2024

Name: huyvogia/vn-land-law-2024
Creator: huyvogia
Published: 2026-04-30 14:45:26
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/huyvogia/vn-land-law-2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：corpus、instruction和rag_qa。corpus配置包含带有元数据的文档，如语言、领域和权威级别。instruction配置包含带有角色和内容的消息，可能用于教学目的。rag_qa配置包含问答对及其元数据，适用于检索增强生成任务。

The dataset consists of three configurations: corpus, instruction, and rag_qa. The corpus configuration includes documents with metadata such as language, domain, and authority level. The instruction configuration contains messages with roles and content, likely for instructional purposes. The rag_qa configuration includes question-answer pairs with additional metadata, suitable for retrieval-augmented generation tasks.

提供机构：

huyvogia

搜集汇总

数据集介绍

构建方式

vn-land-law-2024数据集旨在为越南土地法律领域的研究与应用提供高质量的结构化数据资源。该数据集包含三个配置子集：corpus（语料库）、instruction（指令集）与rag_qa（检索增强问答集）。corpus子集从官方来源收集了261条法律文档，涵盖文档编号、标题、正文以及丰富的元数据，如语言、领域、文档类型、生效日期、章节、条款等，支持细粒度的法律文本分析。instruction子集构造了391条对话样本，每条样本以消息列表形式存储，包含角色与内容字段，用于训练模型的指令遵循能力。rag_qa子集则基于法律文档构建了457个训练样本和50个测试样本的问答对，每个样本关联文档内容与元数据，直接服务于检索增强生成场景。所有数据均经过清洗与结构化处理，确保信息准确与一致性。

使用方法

该数据集可通过HuggingFace Datasets库便捷加载与使用。用户可根据需求选择corpus、instruction或rag_qa配置加载对应子集。例如，使用`load_dataset('vn-land-law-2024', 'corpus')`可获取法律语料，用于文本分类或信息检索任务；`load_dataset('vn-land-law-2024', 'instruction')`可用于微调指令型语言模型；`load_dataset('vn-land-law-2024', 'rag_qa')`则适用于训练检索增强生成系统。rag_qa子集已预设训练集与测试集划分，便于评估模型性能。数据以Parquet格式存储，高效且易于扩展。建议研究者结合元数据中的字段进行针对性预处理，以适配下游任务需求。

背景与挑战

背景概述

在法律智能化进程中，面向低资源语言的领域数据集构建成为自然语言处理研究的重要课题。vn-land-law-2024数据集由研究团队于2024年创建，专注于越南土地法领域，包含语料库、指令微调与检索增强问答三个子集，涵盖261篇法律文档、391条指令对及507条问答对，旨在为法律文本理解、法律问答与信息检索提供高质量基准。该数据集通过精心的元数据设计，将文档按章节、条款、主题与权威层级结构化，为法律领域的语义解析与知识建模奠定了基础。其发布对推动低资源法律语言处理研究、促进越南法律数字化与智能法律服务发展具有深远影响。

当前挑战

该数据集所解决的领域挑战主要在于法律文本的领域专业性与知识密集型：越南土地法条文逻辑严谨、术语繁复且历史版本交错，使得通用语言模型难以精准捕获条款间的关联与层次结构。在构建过程中，挑战集中于：1）法律文档的权威来源确认与大规模结构化元数据的提取，需人工核查法律效力和时效性；2）指令微调数据的设计需涵盖司法解释、实务问答等多维度任务，以保证模型泛化能力；3）检索增强问答对的构建需处理文档切片粒度与问答语义的映射，确保检索的准确性和答案的可信度，这些因素共同构成了数据集研发的核心难点。

常用场景

经典使用场景

在越南法律领域的研究与实践中，vn-land-law-2024数据集凭借其结构化的法律文本资源，成为法律条文解析与智能问答任务的基石。该数据集包含详尽的越南土地法语料库，涵盖了从法律条文到结构化问答对的多层次数据。研究者通常利用其"corpus"配置进行法律文档的检索与分类，借助"instruction"配置构建法律领域的指令微调数据集，从而训练出能够理解并生成法律文本的模型。其经典应用场景聚焦于法律信息抽取、条文关联分析以及基于法律知识的生成式对话系统，为越南法律智能化处理奠定了数据基础。

解决学术问题

该数据集显著解决了越南土地法领域长期存在的结构化法律语料匮乏问题，推动了法律文本挖掘与自然语言处理的交叉研究。学术上，它助力研究者攻克法律知识图谱构建中的实体识别与关系抽取难题，并支持基于检索增强生成（RAG）的法律问答系统评估。通过提供带有元数据（如颁布年份、效力层级、章节条款）的精细标注，该数据集使得模型能够学习法律条文的时间与层级关联性，从而提升法律推理的准确性。其发布的意义在于为越南法律计算领域提供了一个标准化、可复现的基准，促进了低资源语言在法律人工智能方向上的学术突破。

实际应用

在实际应用中，vn-land-law-2024数据集直接服务于越南土地管理部门的数字化改革与法律服务系统升级。基于该数据集开发的智能法律助手能够自动回答公民关于土地所有权、使用权及征收补偿等常见法律咨询问题，显著降低了人工咨询的负担。同时，法律从业者可利用其进行合同合规性审查与判例检索，通过RAG系统快速定位相关条文与历史解释。在企业层面，该数据集支撑了不动产交易平台的法律风险评估模块，辅助自动化审核土地转让文件的法律有效性，从而提升业务流程的合规性与效率。

数据集最近研究