SINAI/ALIA-es-legal-synthetic-instructions

Name: SINAI/ALIA-es-legal-synthetic-instructions
Creator: SINAI
Published: 2026-05-05 06:04:43
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/SINAI/ALIA-es-legal-synthetic-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

ALIA西班牙法律与行政合成指令语料库是一个使用Magpie方法生成的合成语料库，专为西班牙法律领域设计，旨在为训练和评估语言模型提供资源。该数据集包含超过740万条指令-答案对，涵盖多种形式，如一般问题和指令、基于上下文的问题和指令、多项选择题（包括多选和判断题）等，并有带或不带解释的版本。数据生成使用了Phi-4模型，并经过了严格的清洗、语义验证和去重处理。该数据集适用于训练西班牙语法律大语言模型、法律问答系统以及其他法律推理任务。

The ALIA Spanish Legal and Administrative Synthetic Instructions Corpus is a synthetic corpus generated using the Magpie methodology, adapted for the Spanish legal domain, designed to provide resources for training and evaluating language models. The dataset contains over 7.4 million instruction-answer pairs, covering various formats such as general questions and instructions, context-based questions and instructions, multiple-choice test questions (including multiple-choice and true/false), with versions both with and without justification. The data was generated using the Phi-4 model and underwent a rigorous process of cleaning, semantic validation, and duplicate removal. This dataset is suitable for training Spanish legal large language models, legal QA systems, and other legal reasoning tasks.

提供机构：

SINAI

搜集汇总

数据集介绍

构建方式

该数据集基于Magpie方法论构建，利用Phi-4模型在西班牙语法律与行政领域内自动生成指令-回答对。生成过程通过让模型自我补全用户角色消息来产生问题或指令，随后由模型自身给出回答。针对不同任务需求，数据集涵盖无上下文与有上下文两种模式，后者基于西班牙公共法律与行政文档显式提供背景信息。生成的内容经过严格清洗流程：先移除重复项与无效回答，再完全抛弃来自Llama模型的不一致数据并以Phi-4重新生成，最后使用jina-embeddings-v3进行语义过滤，仅保留余弦相似度不低于0.50的实例，最终获得超过740万条高质量样本。

特点

该数据集规模庞大，包含逾740万条指令-回答对，总tokens数超过80亿，覆盖多种任务格式，如通用问答、上下文相关问答、多项选择（A/B/C/D）与是非判断题，并针对测试问题提供含或不含解释的变体。数据来源于西班牙公共法律与行政文档，经语义过滤与去重后保持了领域专业性与语言规范性。每条样本包括系统提示、生成问题及相应回答三个字段，便于直接应用于指令微调与评估。数据集的多样性体现在16个独立分割中，可灵活适配不同场景下的模型训练需求。

使用方法

用户可通过HuggingFace的datasets库便捷调用该数据集，支持完整加载或按需选取特定分割。推荐在训练西班牙语法律大语言模型或构建法律问答系统时使用，尤其适用于基于检索增强生成（RAG）的应用场景。对于大规模分割，建议采用流式加载以降低内存开销。数据集内嵌的任务变体可支持多任务学习，如同时训练指令遵循、事实判断与解释生成能力。用户可基于系统提示字段设计定制化指令模板，或利用有无上下文的分割验证模型的上下文理解与推理能力。具体加载示例参考Python代码中的load_dataset函数调用。

背景与挑战

背景概述

ALIA-es-legal-synthetic-instructions数据集由西班牙哈恩大学SINAI研究团队于2026年创建，隶属于ALIA项目，旨在弥补西班牙语法律领域大规模指令数据的缺失。该数据集基于Magpie方法论，利用Phi-4模型自动生成了超过740万条指令-回答对，涵盖问题解答、指令执行、多项选择与真伪判断等多种任务形式，并融合了上下文依赖与无需上下文两种模式。数据集的出现为西班牙语法律大语言模型的训练与评估提供了关键资源，推动了法律问答系统、推理生成模型以及检索增强生成技术在该语言领域的发展，对提升公民获取法律信息的能力具有重要社会意义。

当前挑战

该数据集主要面临三方面挑战。首先，西班牙语法律领域长期缺乏高质量、大规模的标注语料，现有模型难以准确理解法律文书的专业术语与逻辑结构，数据集的构建正是为了应对这一领域瓶颈。其次，在数据生成过程中，由于生成模型（Llama）出现不一致性，全部数据被弃用后改用Phi-4重建，并需经过严格的语义过滤（jina-embeddings-v3余弦相似度≥0.50）与去重处理，最终移除了约39万条无效样本，过程复杂且资源消耗巨大。此外，合成数据的风格较真实法律语言更为同质化，可能引入行政用语偏见，且复杂文档的结构信息存在丢失风险，这些均制约了模型的泛化能力与实际应用效果。

常用场景

经典使用场景

在西班牙语法律与行政智能处理领域，该数据集被广泛用于微调大型语言模型，使其能够精准理解并生成法律文本。研究者通常利用其丰富的指令-回答对，训练模型执行法律问答、文本分类、信息抽取等任务。特别地，该数据集提供了带上下文与不带上下文两种模式，使得模型能够在不同场景下学习法律知识的检索与推理。其多选题与判断题格式，则进一步支持了模型在标准化测试中的表现评估。整体上，该数据集通过海量、高质量且经过语义清洗的合成数据，为构建西班牙语法律专用大语言模型提供了坚实的基础训练素材。

衍生相关工作

该数据集衍生了一系列重要的研究工作，包括基于西班牙语法律领域的专用语言模型训练与评估框架。研究者在此基础上开发了法律文本分类系统，能够自动将法律文档归入不同法条或行政类别，并构建了法律推理基准测试集，用于评估模型在复杂法律问题上的逻辑判断能力。此外，该数据集催生了多项关于合成数据质量分析与语义过滤策略的研究，深入探讨了生成模型引入的偏差及去偏方法。这些工作不仅推动了西班牙语法律人工智能的发展，也为其他低资源语言与专业领域的合成数据构建提供了宝贵的经验与理论支撑。

数据集最近研究