mexican-legal-benchmarks
收藏Mexican Legal Benchmarks 数据集概述
数据集基本信息
- 数据集名称: Mexican Legal Benchmarks
- 存储库地址: https://huggingface.co/datasets/Echo9k/mexican-legal-benchmarks
- 语言: 西班牙语 (es)
- 许可证: CC-BY-4.0
- 作者: Guillermo Alcantara Gonzalez
- 机构: IUAC
- 交互式评估仪表板: https://huggingface.co/spaces/Echo9k/mexican-legal-eval-dashboard
数据集摘要
首个用于评估语言模型在墨西哥法律任务上性能的专门基准套件。包含三个配置,测试不同的法律能力:联邦法规的实践解释、带有引证验证的IRAC结构化推理链,以及墨西哥各州之间的跨司法管辖区比较。
总计380个样本,源自墨西哥联邦和州法律法典。每个样本均通过LLM流程生成,并针对一个包含228K条目的语料库进行引证验证,确保所有条款引用均对应墨西哥法律中的真实规定。
基准配置详情
| 配置 | 样本总数 | 训练集 | 验证集 | 测试集 | 任务 | 描述 |
|---|---|---|---|---|---|---|
interpretation |
200 | 160 | 20 | 20 | 法律解释 | 涵盖民法、劳动法、刑法领域的7种解释类型 |
reasoning |
120 | 84 | 18 | 18 | 法律推理链 | 带有对比组的IRAC结构化分析 |
cross_jurisdiction |
60 | 42 | 9 | 9 | 跨司法管辖区比较 | 针对5个法律概念比较CDMX(墨西哥城)与EDOMEX(墨西哥州) |
数据配置
数据集包含以下配置:
interpretation(默认配置)reasoningcross_jurisdictionevaluation_resultspreference_pairs
各基准详解
解释基准
评估模型按照既定法律方法生成墨西哥法律学说解释的能力。
解释类型(7种):
literal(Gramatical/Literal): 法律文本的直接字面含义systematic(Sistematica): 通过与其他规范的关系进行解释teleological(Teleologica): 基于规则目的/意图的解释historical(Historica): 通过历史背景进行解释analogical(Analogica): 应用于未明确涵盖的类似案例conforming(Conforme): 与宪法/人权原则保持一致weighing(Ponderacion): 当竞争原则冲突时进行权衡
数据字段:
id: 唯一标识符 (格式:interp_{uuid8})article_reference: 标准化引证 (例如LFT-048)interpretation_type: 7种解释类型之一legal_domain:civil、labor或penalinterpretation: 完整的学说分析文本audience:lawyer、citizen或businessdifficulty:basic、intermediate或advancedpractical_implications: 实际后果列表confidence_score: 引证验证置信度 (0.0-1.0)citation_verified: 引证是否经过语料库验证
推理基准
评估IRAC(问题、规则、适用、结论)结构化法律分析,测试模型能否产生连贯的多步骤推理链。
IRAC结构: 每个样本包含一个具有4种步骤类型的推理链:
- Issue: 识别法律问题
- Rule: 陈述相关法律规则
- Application: 将规则应用于事实
- Conclusion: 陈述法律结果
特点:
- 对比组: 样本与替代结论配对,以测试推理一致性
- 先例上下文: 引证图丰富功能将每个条款链接到相关条款(每个条款最多993个连接引证)
- 步骤验证: 每个步骤均独立验证引证准确性
跨司法管辖区基准
评估模型比较同一法律概念在不同墨西哥州司法管辖区如何实施的能力。这是一个比较CDMX(墨西哥城)和EDOMEX(墨西哥州)的试点。
法律概念(5个):
- Divorce (离婚)
- Property rights (财产权)
- Consumer protection (消费者保护)
- Environmental law (环境法)
- Labor protections (劳动保护)
评估维度(6个): 使用多维PRM(过程奖励模型)评分对每个样本进行评分:
- Legal accuracy (法律准确性)
- Relevance (相关性)
- Validity (有效性)
- Jurisdiction specificity (司法管辖区特异性)
- Comparative depth (比较深度)
- Temporal awareness (时间意识)
对比类型(6种):
direct_comparisonprocedural_differencethreshold_variationscope_differencetemporal_divergenceenforcement_contrast
基线评估结果
评估方法
使用LLM-as-Judge方法,以Claude Sonnet 4.5作为主要评判模型,在三个维度上进行1-10分制评分:
- Validity (有效性)
- Relevance (相关性)
- Legal Accuracy (法律准确性)
整体结果(851条评估记录)
总体分数:
| 模型 | N | 有效性 | 相关性 | 法律准确性 | 整体 |
|---|---|---|---|---|---|
| Claude Sonnet 4.5 | 380 | 8.66 | 9.40 | 8.64 | 8.90 |
| Claude Opus 4.6 | 380 | 8.62 | 9.07 | 8.22 | 8.64 |
| Qwen3-32B-AWQ | 91 | 4.92 | 5.90 | 3.47 | 4.76 |
各基准细分:
- Interpretation (200样本): Claude Sonnet 4.5 整体得分 8.85 (领先)
- Reasoning (120样本): Claude Sonnet 4.5 与 Claude Opus 4.6 表现接近 (~9.21)
- Cross-Jurisdiction (60样本): Claude Opus 4.6 整体得分 8.82 (领先)
关键发现:
- Sonnet 4.5 整体略优于 Opus 4.6 (8.90 vs. 8.64),在43.9%的配对样本中获胜。
- Opus 在跨司法管辖区分析上表现出色 (8.82 vs. 8.41),而 Sonnet 在解释任务上领先 (8.85 vs. 8.24)。
- 推理是最具竞争力的基准,两个Claude模型得分均接近9.21。
- 两个Claude模型均显著优于 Qwen3-32B-AWQ (8.64-8.90 vs. 4.76)。
- Qwen3 的关键弱点是法律准确性 (3.47),系统性地捏造条款内容。
- 本地LLM评判员对于领域特定的事实验证不可靠。
DPO偏好对
从成对模型比较中生成357个偏好对(最小分差:0.5)。可用于直接偏好优化训练。
生成方法
所有基准样本均使用基于LLM的流程生成,具有多层验证。
流程架构:
- 条款选择: 从涵盖联邦法典和州法典的228K条目墨西哥法律引证语料库中选择条款。
- LLM生成: 使用Anthropic Claude和OpenAI模型生成样本,采用强制墨西哥法律方法的领域特定提示。
- 引证验证: 使用多级置信度评分系统针对语料库验证每个条款引用。
- 自适应批量验证: 错误阈值管理,具有自动恢复缩放功能。
- 分层拆分: 按解释类型、法律领域和难度对训练/验证/测试集进行分层。
源法律:
- LFT (Ley Federal del Trabajo)
- CCF (Codigo Civil Federal)
- CPF (Codigo Penal Federal)
- CPEUM (Constitucion Politica de los Estados Unidos Mexicanos)
- CDMX codes
- EDOMEX codes
限制与偏差
已知限制:
- 联邦法律焦点: 解释和推理基准主要涵盖联邦法律。州级覆盖仅限于跨司法管辖区基准中的CDMX/EDOMEX试点。
- LLM生成内容: 所有样本均由语言模型生成,非法律专家创建或注释。引证验证可捕获虚构引用,但无法验证解释或推理的法律正确性。
- 时间范围: 基于法律法典的当前版本。未系统跟踪历史修正案和已废除条款。
- 本地评判员分数膨胀: 当由同类模型评估时,法律准确性分数在0-10分制上大约膨胀4.6分。
- 领域不平衡: 由于《联邦民法典》范围更广,民法样本比例更高。
预期用途:
- 研究:评估LLM在墨西哥法律任务上的能力
- 开发:训练和微调模型以进行法律解释
- 基准测试:比较模型在领域特定法律推理上的性能
超出范围:
- 法律建议
- 案件结果预测
- 专家验证替代品
许可证
- 数据集: CC-BY-4.0
- 代码: MIT License
- 源材料: 墨西哥法律法典根据墨西哥法律属于公共领域
引用
bibtex @mastersthesis{alcantara2026mexican, title = {Mexican Legal Benchmarks: Interpretation, Reasoning, and Cross-Jurisdiction Evaluation for Legal Language Models}, author = {Alc{a}ntara Gonz{a}lez, Guillermo}, year = {2026}, school = {IUAC}, note = {Available at url{https://huggingface.co/datasets/Echo9k/mexican-legal-benchmarks}}, }
版本信息
- 数据集版本:2.0
- 最后更新:2026-02-06




