five

ALIA-legal-administrative-cqa

收藏
Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-cqa
下载链接
链接失效反馈
官方服务:
资源简介:
ALIA法律和行政问答数据集是一个专门用于问答的资源,它从官方西班牙法律和行政文件中提取结构化的问答对。该数据集支持研究和评估能够理解和回答关于西班牙法律和行政内容的查询的AI系统。该数据集包含从官方西班牙文件中提取的17,668个结构化实例,支持法律问答、信息检索和西班牙法律和行政领域专用语言模型的研究和开发。
创建时间:
2025-11-25
原始信息汇总

ALIA-legal-administrative-cqa 数据集概述

数据集基本信息

  • 数据集名称: ALIA Legal and Administrative Context Question Answering Corpus
  • 许可证: CC BY-SA 4.0
  • 语言: 西班牙语 (es)
  • 任务类别: 问答、文本生成
  • 标签: 法律、行政、西班牙语、BOJA、问答、上下文问答
  • 规模: 1K<n<10K

数据集描述

ALIA法律和行政上下文问答语料库是一个专门的问题解答资源,源自SINAI/ALIA-legal-administrative语料库。该数据集将法律和行政文档转换为结构化的问题-答案对,支持开发和评估能够理解和回答西班牙法律行政内容查询的AI系统。

关键特征

  • 实例数量: 17,668个结构化实例
  • 文档数量: 6,740个独特文档
  • 数据来源: 西班牙官方文档
  • 应用领域: 法律问答、信息检索、西班牙法律行政领域专用语言模型开发

数据集结构

数据字段

  • id_chunk: 源文档中特定段落/块段的唯一标识符
  • id_document: 提取段落的源文档标识符
  • passage: 法律行政文档中的上下文文本
  • question: 关于段落信息的合成生成问题
  • answer: 基于段落内容的合成生成全面答案
  • character: 合成生成的相关用户类型或角色
  • difficulty: 合成生成的问题-答案对复杂度级别

数据划分

boja划分

  • 数量: 9,776个问答对
  • 文档数: 6,474个独特文档
  • 焦点: 官方立法、法规和行政行为
  • 平均段落长度: 2,932字符
  • 平均答案长度: 613字符

parlamint_es_an划分

  • 数量: 7,892个问答对
  • 文档数: 266个独特文档
  • 焦点: 议会辩论、演讲和立法讨论
  • 平均段落长度: 3,034字符
  • 平均答案长度: 565字符

统计信息

  • 总问答对: 17,668
  • 平均段落长度: 2,978字符
  • 平均问题长度: 108字符
  • 平均答案长度: 592字符

数据来源

  • 基础语料库: ALIA Legal and Administrative Corpus
  • 官方公告: 安达卢西亚地区立法
  • 议会记录: 安达卢西亚议会会议记录

使用方式

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa")

加载特定划分

boja_dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa", split="boja") parlamint_dataset = load_dataset("sinai-uja/ALIA-legal-administrative-cqa", split="parlamint_es_an")

创建信息

  • 创建者: SINAI研究组(智能信息访问系统)- 哈恩大学
  • 资助方: 西班牙数字转型和公共职能部 - 欧盟NextGenerationEU资助
  • 方法论: 基于Qwen3 Embeddings论文技术的合成生成方法
  • 生成模型: GPT-OSS-20B
搜集汇总
数据集介绍
main_image_url
构建方式
在西班牙法律行政文本处理领域,本数据集采用系统性合成生成流程构建而成。首先从ALIA法律行政语料库中提取文本片段作为基础素材,随后运用GPT-OSS-20B模型参照Qwen3嵌入论文方法学,自动生成与原文内容紧密关联的问题-答案对。生成过程特别注重设计多样化用户角色和难度分级,涵盖从政策顾问到地方法官等320余种人物类型,并通过质量保障机制确保问题与答案间的逻辑一致性。最终将生成的17,668组数据按来源划分为BOJA官方公报和安达卢西亚议会记录两个独立子集。
特点
该数据集最显著的特征在于其专业领域覆盖的深度与广度。数据源严格限定于西班牙安达卢西亚大区的官方法律行政文献,包括BOJA官方公报的立法文本和ParlaMint-ES-AN议会记录中的辩论内容。每个数据实例不仅包含基础的问题-答案对,还创新性地融入了合成生成的人物角色和难度分级属性,其中大学难度级别占比达93.7%。这种多维度标注体系使得数据集能够模拟真实场景下不同专业背景用户的查询需求,为开发面向特定用户群体的法律问答系统提供了丰富素材。
使用方法
研究人员可通过HuggingFace数据集库直接加载该资源,支持完整数据集或按BOJA与ParlaMint-ES-AN子集分别加载的灵活方式。在具体应用时,建议采用流式加载处理以优化大规模数据迭代效率。数据集的标准实例结构包含文档标识、原文片段、生成问题、合成答案、人物角色和难度等级等字段,使用者可基于这些字段进行多维度的数据筛选与分析。例如,通过难度字段筛选大学级问题,或按角色类型聚焦法官相关查询,从而针对特定研究目标构建定制化的模型训练与评估流程。
背景与挑战
背景概述
西班牙法律行政问答语料库ALIA-legal-administrative-cqa由哈恩大学SINAI研究团队于2025年构建,该项目受西班牙数字转型与公共职能部通过欧盟下一代基金资助。该数据集聚焦于西班牙安达卢西亚大区的法律行政领域,通过结构化问答对形式转化官方文档,涵盖议会辩论与政府公报等权威来源。其核心价值在于填补西班牙语法律领域高质量评估数据的空白,为法律人工智能系统开发提供标准化测试基准,推动法律文本理解与专业问答系统的跨学科研究。
当前挑战
构建过程面临法律文本专业性与数据生成的平衡难题:法律术语的精确性要求与自动生成内容的可信度验证构成核心矛盾,需通过合成生成技术确保近两万条问答对的逻辑一致性。领域问题层面,该数据集需应对西班牙法律体系特有的多层级规范结构,同时解决行政文书与议会记录在语言风格和知识密度上的显著差异。数据规模限制下,如何通过有限样本覆盖从基础条款查询到复杂法律推理的多元需求,成为评估法律问答模型泛化能力的关键挑战。
常用场景
经典使用场景
在西班牙法律行政领域的人工智能研究中,该数据集为问答系统提供了标准化的评估基准。其结构化的问答对设计能够有效验证模型对安达卢西亚地区法规和议会辩论的理解能力,涵盖从城市规划到教育政策等多元法律主题。通过模拟真实用户角色和难度分级,该数据集已成为法律自然语言处理领域的重要实验平台。
衍生相关工作
该数据集的发布催生了多项法律人工智能领域的创新研究。基于其构建的评估框架被广泛应用于西班牙语法律语言模型的性能验证,启发了针对特定司法管辖区的研究范式。相关衍生工作不仅深化了对法律文本语义理解机制的认识,还为跨语言法律智能系统的开发提供了重要借鉴。
数据集最近研究
最新研究方向
在法律人工智能领域,ALIA-legal-administrative-cqa数据集正推动西班牙语法律问答系统的前沿探索。基于17,668条结构化问答对,研究者聚焦于合成数据生成技术在专业领域的应用,通过GPT-OSS-20B模型构建的多角色问答框架,为法律文本理解提供了新范式。该数据集支撑的跨语言法律信息检索研究,结合安达卢西亚大区议会记录与官方公报的双源数据,正在突破传统法律文本处理的语义理解瓶颈。随着欧盟NextGenerationEU计划对数字政务的推进,这类面向行政流程优化的智能问答系统,已成为提升公共法律服务效率的关键基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作