mexican-legal-benchmarks

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/Echo9k/mexican-legal-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

墨西哥法律基准数据集是首个专门用于评估语言模型在墨西哥法律任务上表现的基准套件。该数据集包含三种配置，分别测试不同的法律能力：联邦法规的实际解释、带有引用验证的IRAC结构推理链以及墨西哥各州之间的跨司法管辖区比较。数据集共包含380个样本，均来自墨西哥联邦和州法律代码，并通过LLM流程生成，所有文章引用均经过验证以确保对应墨西哥法律中的真实条款。数据集分为三个基准配置：解释基准（200个样本）、推理基准（120个样本）和跨司法管辖区基准（60个样本）。每个配置都包含详细的字段说明，如文章引用、解释类型、法律领域、推理步骤等。该数据集适用于法律文本分类、问答系统等任务，特别适合用于评估和提升语言模型在墨西哥法律领域的表现。数据集采用CC-BY-4.0许可，基于西班牙语的法律文本构建。

创建时间：

2026-02-06

原始信息汇总

Mexican Legal Benchmarks 数据集概述

数据集基本信息

数据集名称： Mexican Legal Benchmarks
存储库地址： https://huggingface.co/datasets/Echo9k/mexican-legal-benchmarks
语言： 西班牙语 (es)
许可证： CC-BY-4.0
作者： Guillermo Alcantara Gonzalez
机构： IUAC
交互式评估仪表板： https://huggingface.co/spaces/Echo9k/mexican-legal-eval-dashboard

数据集摘要

首个用于评估语言模型在墨西哥法律任务上性能的专门基准套件。包含三个配置，测试不同的法律能力：联邦法规的实践解释、带有引证验证的IRAC结构化推理链，以及墨西哥各州之间的跨司法管辖区比较。

总计380个样本，源自墨西哥联邦和州法律法典。每个样本均通过LLM流程生成，并针对一个包含228K条目的语料库进行引证验证，确保所有条款引用均对应墨西哥法律中的真实规定。

基准配置详情

配置	样本总数	训练集	验证集	测试集	任务	描述
`interpretation`	200	160	20	20	法律解释	涵盖民法、劳动法、刑法领域的7种解释类型
`reasoning`	120	84	18	18	法律推理链	带有对比组的IRAC结构化分析
`cross_jurisdiction`	60	42	9	9	跨司法管辖区比较	针对5个法律概念比较CDMX（墨西哥城）与EDOMEX（墨西哥州）

数据配置

数据集包含以下配置：

interpretation (默认配置)
reasoning
cross_jurisdiction
evaluation_results
preference_pairs

各基准详解

解释基准

评估模型按照既定法律方法生成墨西哥法律学说解释的能力。

解释类型（7种）：

literal (Gramatical/Literal): 法律文本的直接字面含义
systematic (Sistematica): 通过与其他规范的关系进行解释
teleological (Teleologica): 基于规则目的/意图的解释
historical (Historica): 通过历史背景进行解释
analogical (Analogica): 应用于未明确涵盖的类似案例
conforming (Conforme): 与宪法/人权原则保持一致
weighing (Ponderacion): 当竞争原则冲突时进行权衡

数据字段：

id: 唯一标识符 (格式: interp_{uuid8})
article_reference: 标准化引证 (例如 LFT-048)
interpretation_type: 7种解释类型之一
legal_domain: civil、labor 或 penal
interpretation: 完整的学说分析文本
audience: lawyer、citizen 或 business
difficulty: basic、intermediate 或 advanced
practical_implications: 实际后果列表
confidence_score: 引证验证置信度 (0.0-1.0)
citation_verified: 引证是否经过语料库验证

推理基准

评估IRAC（问题、规则、适用、结论）结构化法律分析，测试模型能否产生连贯的多步骤推理链。

IRAC结构： 每个样本包含一个具有4种步骤类型的推理链：

Issue: 识别法律问题
Rule: 陈述相关法律规则
Application: 将规则应用于事实
Conclusion: 陈述法律结果

特点：

对比组： 样本与替代结论配对，以测试推理一致性
先例上下文： 引证图丰富功能将每个条款链接到相关条款（每个条款最多993个连接引证）
步骤验证： 每个步骤均独立验证引证准确性

跨司法管辖区基准

评估模型比较同一法律概念在不同墨西哥州司法管辖区如何实施的能力。这是一个比较CDMX（墨西哥城）和EDOMEX（墨西哥州）的试点。

法律概念（5个）：

Divorce (离婚)
Property rights (财产权)
Consumer protection (消费者保护)
Environmental law (环境法)
Labor protections (劳动保护)

评估维度（6个）： 使用多维PRM（过程奖励模型）评分对每个样本进行评分：

Legal accuracy (法律准确性)
Relevance (相关性)
Validity (有效性)
Jurisdiction specificity (司法管辖区特异性)
Comparative depth (比较深度)
Temporal awareness (时间意识)

对比类型（6种）：

direct_comparison
procedural_difference
threshold_variation
scope_difference
temporal_divergence
enforcement_contrast

基线评估结果

评估方法

使用LLM-as-Judge方法，以Claude Sonnet 4.5作为主要评判模型，在三个维度上进行1-10分制评分：

Validity (有效性)
Relevance (相关性)
Legal Accuracy (法律准确性)

整体结果（851条评估记录）

总体分数：

模型	N	有效性	相关性	法律准确性	整体
Claude Sonnet 4.5	380	8.66	9.40	8.64	8.90
Claude Opus 4.6	380	8.62	9.07	8.22	8.64
Qwen3-32B-AWQ	91	4.92	5.90	3.47	4.76

各基准细分：

Interpretation (200样本): Claude Sonnet 4.5 整体得分 8.85 (领先)
Reasoning (120样本): Claude Sonnet 4.5 与 Claude Opus 4.6 表现接近 (~9.21)
Cross-Jurisdiction (60样本): Claude Opus 4.6 整体得分 8.82 (领先)

关键发现：

Sonnet 4.5 整体略优于 Opus 4.6 (8.90 vs. 8.64)，在43.9%的配对样本中获胜。
Opus 在跨司法管辖区分析上表现出色 (8.82 vs. 8.41)，而 Sonnet 在解释任务上领先 (8.85 vs. 8.24)。
推理是最具竞争力的基准，两个Claude模型得分均接近9.21。
两个Claude模型均显著优于 Qwen3-32B-AWQ (8.64-8.90 vs. 4.76)。
Qwen3 的关键弱点是法律准确性 (3.47)，系统性地捏造条款内容。
本地LLM评判员对于领域特定的事实验证不可靠。

DPO偏好对

从成对模型比较中生成357个偏好对（最小分差：0.5）。可用于直接偏好优化训练。

生成方法

所有基准样本均使用基于LLM的流程生成，具有多层验证。

流程架构：

条款选择： 从涵盖联邦法典和州法典的228K条目墨西哥法律引证语料库中选择条款。
LLM生成： 使用Anthropic Claude和OpenAI模型生成样本，采用强制墨西哥法律方法的领域特定提示。
引证验证： 使用多级置信度评分系统针对语料库验证每个条款引用。
自适应批量验证： 错误阈值管理，具有自动恢复缩放功能。
分层拆分： 按解释类型、法律领域和难度对训练/验证/测试集进行分层。

源法律：

LFT (Ley Federal del Trabajo)
CCF (Codigo Civil Federal)
CPF (Codigo Penal Federal)
CPEUM (Constitucion Politica de los Estados Unidos Mexicanos)
CDMX codes
EDOMEX codes

限制与偏差

已知限制：

联邦法律焦点： 解释和推理基准主要涵盖联邦法律。州级覆盖仅限于跨司法管辖区基准中的CDMX/EDOMEX试点。
LLM生成内容： 所有样本均由语言模型生成，非法律专家创建或注释。引证验证可捕获虚构引用，但无法验证解释或推理的法律正确性。
时间范围： 基于法律法典的当前版本。未系统跟踪历史修正案和已废除条款。
本地评判员分数膨胀： 当由同类模型评估时，法律准确性分数在0-10分制上大约膨胀4.6分。
领域不平衡： 由于《联邦民法典》范围更广，民法样本比例更高。

预期用途：

研究：评估LLM在墨西哥法律任务上的能力
开发：训练和微调模型以进行法律解释
基准测试：比较模型在领域特定法律推理上的性能

超出范围：

法律建议
案件结果预测
专家验证替代品

许可证

数据集： CC-BY-4.0
代码： MIT License
源材料： 墨西哥法律法典根据墨西哥法律属于公共领域

引用

bibtex @mastersthesis{alcantara2026mexican, title = {Mexican Legal Benchmarks: Interpretation, Reasoning, and Cross-Jurisdiction Evaluation for Legal Language Models}, author = {Alc{a}ntara Gonz{a}lez, Guillermo}, year = {2026}, school = {IUAC}, note = {Available at url{https://huggingface.co/datasets/Echo9k/mexican-legal-benchmarks}}, }

版本信息

数据集版本：2.0
最后更新：2026-02-06

搜集汇总

数据集介绍

构建方式

在墨西哥法律智能评估领域，该数据集通过一个精心设计的LLM生成与验证流程构建而成。其核心方法是从一个包含22.8万条条目的墨西哥法律引文语料库中筛选联邦与州级法律条文，随后运用特定领域提示词引导大型语言模型生成符合墨西哥法律方法论的任务样本。生成过程嵌入了多层验证机制，特别是引文验证系统，该系统对每一条法律条文引用进行核对，并赋予0.0至1.0的置信度评分，确保所有参考均对应真实存在的法律条款。此外，数据划分采用了分层抽样策略，依据解释类型、法律领域和难度级别进行分层，以保证各子集在关键维度上的代表性。

使用方法

研究人员可利用Hugging Face的`datasets`库便捷地加载和使用该数据集。通过指定数据集名称与相应的配置参数（如`interpretation`、`reasoning`或`cross_jurisdiction`），即可访问训练、验证和测试分割。该数据集主要用于评估语言模型在墨西哥法律场景下的任务表现，例如生成法律解释、进行结构化推理或比较不同司法管辖区的法律差异。用户可基于提供的基线评估结果，对比不同模型的性能。此外，数据集包含的偏好对配置可用于直接偏好优化训练，以进一步提升模型在法律领域的对齐能力。所有使用均应遵循研究目的，不可用于实际法律咨询。

背景与挑战

背景概述

在人工智能与法律交叉研究领域，针对特定法域的专业化评估基准长期处于稀缺状态。墨西哥法律基准数据集由Guillermo Alcantara Gonzalez于2026年在IUAC机构主导创建，作为首个专门评估语言模型在墨西哥法律任务上性能的基准套件。该数据集旨在解决法律人工智能领域中对西班牙语、大陆法系下具体国家法律体系进行系统性评估的空白，其核心研究问题聚焦于衡量模型对墨西哥联邦及州级法律条文进行法律解释、结构化推理以及跨司法管辖区比较的能力。通过构建涵盖民法、劳动法、刑法三大领域的380个样本，该数据集为评估法律语言模型在真实、复杂法律场景下的表现提供了标准化工具，对推动西班牙语法律人工智能研究的科学化与精细化发展具有开创性意义。

当前挑战

该数据集旨在解决的领域挑战在于，如何精准评估语言模型在特定国家法律体系（此处为墨西哥）内进行复杂法律认知任务的能力，这超越了通用的文本分类或问答，涉及对法律条文进行符合法学方法论（如七种解释类型）的深度理解、遵循IRAC结构的严谨推理链构建，以及辨析不同州级司法管辖区对同一法律概念的实施差异。在构建过程中，挑战主要体现在：首先，确保所有生成的法律条文引用均真实存在于庞大的墨西哥法律条文语料库中，这需要通过多层级的引用验证系统来对抗模型幻觉；其次，在缺乏专家人工标注的情况下，如何设计可靠的LLM-as-Judge评估框架以准确衡量模型输出的法律准确性、相关性与有效性，并克服同源模型评估带来的分数膨胀问题；最后，如何在有限的样本量下，通过分层抽样等方法保证数据在解释类型、法律领域和难度级别上的代表性，以构建一个均衡且具有统计意义的评估基准。

常用场景

经典使用场景

在计算法学与法律人工智能领域，墨西哥法律基准数据集为评估大型语言模型在特定法域下的专业能力提供了首个系统性工具。该数据集最经典的使用场景在于对模型进行多维度的基准测试，涵盖法律解释、IRAC结构推理以及跨司法管辖区比较三大核心任务。研究者通过加载不同的配置，能够精确测量模型在解析墨西哥联邦及州级法律条文、构建逻辑严谨的法律论证链条，以及辨析不同行政区划间法律概念差异等方面的性能表现，从而为模型在法律垂直领域的适配性提供客观、量化的评估依据。

解决学术问题

该数据集有效解决了法律人工智能研究中长期存在的若干关键问题。首先，它填补了西班牙语及墨西哥法域专用评估基准的空白，为跨语言、跨法系的模型能力比较研究提供了基础。其次，通过引入基于228K条法律条文语料库的引证验证机制，它直接应对了模型在法律领域易产生事实性幻觉的核心挑战，为评估模型的引证准确性与事实可靠性提供了方法论范例。最后，其精心设计的对比组与多维度评分体系，为深入探究模型法律推理的逻辑一致性、论证深度与司法敏感性等复杂认知能力，提供了结构化的研究框架。

实际应用

该数据集的实际应用场景紧密贴合法律科技的发展需求。在法律科技公司中，它可以作为核心测试集，用于开发和优化面向墨西哥市场的法律咨询助手、合同智能审查工具以及法律研究自动化平台，确保生成内容的专业性与准确性。在法学教育与培训领域，该数据集能够辅助构建智能教学系统，为学生提供基于真实法律条文的解释与推理练习，并生成具有对比性的案例分析。此外，对于政府与司法机构，该数据集所蕴含的跨司法管辖区比较能力，可为法律统一性审查、区域性立法差异分析等政策研究提供技术辅助视角。

数据集最近研究