ALIA-legal-administrative-cqa

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-cqa

下载链接

链接失效反馈

官方服务：

资源简介：

ALIA法律和行政问答数据集是一个专门用于问答的资源，它从官方西班牙法律和行政文件中提取结构化的问答对。该数据集支持研究和评估能够理解和回答关于西班牙法律和行政内容的查询的AI系统。该数据集包含从官方西班牙文件中提取的17,668个结构化实例，支持法律问答、信息检索和西班牙法律和行政领域专用语言模型的研究和开发。

创建时间：

2025-11-25

原始信息汇总

ALIA-legal-administrative-cqa 数据集概述

数据集基本信息

数据集名称: ALIA Legal and Administrative Context Question Answering Corpus
许可证: CC BY-SA 4.0
语言: 西班牙语 (es)
任务类别: 问答、文本生成
标签: 法律、行政、西班牙语、BOJA、问答、上下文问答
规模: 1K<n<10K

数据集描述

ALIA法律和行政上下文问答语料库是一个专门的问题解答资源，源自SINAI/ALIA-legal-administrative语料库。该数据集将法律和行政文档转换为结构化的问题-答案对，支持开发和评估能够理解和回答西班牙法律行政内容查询的AI系统。

关键特征

实例数量: 17,668个结构化实例
文档数量: 6,740个独特文档
数据来源: 西班牙官方文档
应用领域: 法律问答、信息检索、西班牙法律行政领域专用语言模型开发

数据集结构

数据字段

id_chunk: 源文档中特定段落/块段的唯一标识符
id_document: 提取段落的源文档标识符
passage: 法律行政文档中的上下文文本
question: 关于段落信息的合成生成问题
answer: 基于段落内容的合成生成全面答案
character: 合成生成的相关用户类型或角色
difficulty: 合成生成的问题-答案对复杂度级别

数据划分

boja划分

数量: 9,776个问答对
文档数: 6,474个独特文档
焦点: 官方立法、法规和行政行为
平均段落长度: 2,932字符
平均答案长度: 613字符

parlamint_es_an划分

数量: 7,892个问答对
文档数: 266个独特文档
焦点: 议会辩论、演讲和立法讨论
平均段落长度: 3,034字符
平均答案长度: 565字符

统计信息

总问答对: 17,668
平均段落长度: 2,978字符
平均问题长度: 108字符
平均答案长度: 592字符

数据来源

基础语料库: ALIA Legal and Administrative Corpus
官方公告: 安达卢西亚地区立法
议会记录: 安达卢西亚议会会议记录

使用方式

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa")

加载特定划分

boja_dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa", split="boja") parlamint_dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa", split="parlamint_es_an")

创建信息

创建者: SINAI研究组（智能信息访问系统）- 哈恩大学
资助方: 西班牙数字转型和公共职能部 - 欧盟NextGenerationEU资助
方法论: 基于Qwen3 Embeddings论文技术的合成生成方法
生成模型: GPT-OSS-20B

搜集汇总

数据集介绍

构建方式

在西班牙法律行政文本处理领域，本数据集采用系统性合成生成流程构建而成。首先从ALIA法律行政语料库中提取文本片段作为基础素材，随后运用GPT-OSS-20B模型参照Qwen3嵌入论文方法学，自动生成与原文内容紧密关联的问题-答案对。生成过程特别注重设计多样化用户角色和难度分级，涵盖从政策顾问到地方法官等320余种人物类型，并通过质量保障机制确保问题与答案间的逻辑一致性。最终将生成的17,668组数据按来源划分为BOJA官方公报和安达卢西亚议会记录两个独立子集。

特点

该数据集最显著的特征在于其专业领域覆盖的深度与广度。数据源严格限定于西班牙安达卢西亚大区的官方法律行政文献，包括BOJA官方公报的立法文本和ParlaMint-ES-AN议会记录中的辩论内容。每个数据实例不仅包含基础的问题-答案对，还创新性地融入了合成生成的人物角色和难度分级属性，其中大学难度级别占比达93.7%。这种多维度标注体系使得数据集能够模拟真实场景下不同专业背景用户的查询需求，为开发面向特定用户群体的法律问答系统提供了丰富素材。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，支持完整数据集或按BOJA与ParlaMint-ES-AN子集分别加载的灵活方式。在具体应用时，建议采用流式加载处理以优化大规模数据迭代效率。数据集的标准实例结构包含文档标识、原文片段、生成问题、合成答案、人物角色和难度等级等字段，使用者可基于这些字段进行多维度的数据筛选与分析。例如，通过难度字段筛选大学级问题，或按角色类型聚焦法官相关查询，从而针对特定研究目标构建定制化的模型训练与评估流程。

背景与挑战

背景概述

西班牙法律行政问答语料库ALIA-legal-administrative-cqa由哈恩大学SINAI研究团队于2025年构建，该项目受西班牙数字转型与公共职能部通过欧盟下一代基金资助。该数据集聚焦于西班牙安达卢西亚大区的法律行政领域，通过结构化问答对形式转化官方文档，涵盖议会辩论与政府公报等权威来源。其核心价值在于填补西班牙语法律领域高质量评估数据的空白，为法律人工智能系统开发提供标准化测试基准，推动法律文本理解与专业问答系统的跨学科研究。

当前挑战

构建过程面临法律文本专业性与数据生成的平衡难题：法律术语的精确性要求与自动生成内容的可信度验证构成核心矛盾，需通过合成生成技术确保近两万条问答对的逻辑一致性。领域问题层面，该数据集需应对西班牙法律体系特有的多层级规范结构，同时解决行政文书与议会记录在语言风格和知识密度上的显著差异。数据规模限制下，如何通过有限样本覆盖从基础条款查询到复杂法律推理的多元需求，成为评估法律问答模型泛化能力的关键挑战。

常用场景

经典使用场景

在西班牙法律行政领域的人工智能研究中，该数据集为问答系统提供了标准化的评估基准。其结构化的问答对设计能够有效验证模型对安达卢西亚地区法规和议会辩论的理解能力，涵盖从城市规划到教育政策等多元法律主题。通过模拟真实用户角色和难度分级，该数据集已成为法律自然语言处理领域的重要实验平台。

衍生相关工作

该数据集的发布催生了多项法律人工智能领域的创新研究。基于其构建的评估框架被广泛应用于西班牙语法律语言模型的性能验证，启发了针对特定司法管辖区的研究范式。相关衍生工作不仅深化了对法律文本语义理解机制的认识，还为跨语言法律智能系统的开发提供了重要借鉴。

数据集最近研究