EUR-Lex-Triples
收藏Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/nihedb/EUR-Lex-Triples
下载链接
链接失效反馈官方服务:
资源简介:
EUR-Lex-Triples是一个来自欧洲立法的法律关系提取数据集,包含1504个注释文档。这些文档来源于EUR-Lex-Sum数据集的英文部分,每个文档包括摘要、注释段落以及从注释中派生的三元组。数据集适用于法律关系提取任务,并提供了多种基线模型的性能结果。
创建时间:
2025-08-28
原始信息汇总
EUR-Lex-Triples 数据集概述
数据集基本信息
- 名称:EUR-Lex-Triples
- 语言:英语、法语
- 领域:法律
- 数据来源:EUR-Lex-Sum 数据集(英语部分)
- 任务类型:关系抽取、词元分类
数据集内容
- 文档数量:1504 个标注文档
- 数据格式:JSON 文件
- 内容组成:
- 每个文档包含摘要
- 标注的段落
- 每个段落的标注三元组
基线模型性能
| 模型 | 精确率 | 召回率 | F1分数 |
|---|---|---|---|
| Legal-Bert | 0.64 | 0.59 | 0.60 |
| Bert | 0.58 | 0.52 | 0.54 |
| Rebel-Large | 0.88 | 0.75 | 0.80 |
| Mistral 7b zero-Shot | 0.38 | 0.30 | 0.33 |
| Mistral 7b In-Context | 0.42 | 0.36 | 0.38 |
| Mistral 7b Finetuning | 0.84 | 0.69 | 0.75 |
| Zephyr 7b Zero-Shot | 0.40 | 0.36 | 0.37 |
| Zephyr 7b In-Context | 0.52 | 0.44 | 0.47 |
| Zephyr 7b Finetuning | 0.85 | 0.61 | 0.71 |
| Llama 2 13b Zero-Shot | 0.31 | 0.25 | 0.27 |
| Llama 2 13b In-Context | 0.33 | 0.29 | 0.30 |
| Llama 2 13b Finetuning | 0.82 | 0.61 | 0.69 |
许可信息
- 许可证:CC BY 4.0
- 版权说明:欧盟立法内容受 Creative Commons Attribution 4.0 International 许可保护
相关资源
- 论文:EUR-Lex-Triples: A Legal Relation Extraction Dataset from European Legislation(TPDL 2025)
- 原始论文:https://aclanthology.org/2022.emnlp-main.519.pdf
搜集汇总
数据集介绍

构建方式
EUR-Lex-Triples数据集基于EUR-Lex-Sum语料库构建,专注于欧盟法律文本的关系抽取任务。该数据集从EUR-Lex-Sum英文部分精选了1504份法律文档,通过人工标注生成结构化三元组。每个文档以JSON格式存储,包含原文摘要、标注段落及对应的三元组信息,确保了数据的一致性与可追溯性。
特点
作为法律自然语言处理领域的重要资源,EUR-Lex-Triples具备多维度特征:其标注体系覆盖法律实体间的复杂关系,支持关系抽取与令牌分类任务;数据源自具有法律效力的欧盟法规文本,具备权威性与真实性;基准测试显示REBEL-Large模型F1值达0.80,体现了数据集的挑战性与实用性。
使用方法
研究者可通过HuggingFace平台获取该数据集,使用Filtered_Annotated_Documents中的JSON文件进行模型训练。数据集适用于监督学习框架,支持基于BERT、Mistral等架构的关系抽取模型微调。用户需遵循CC BY 4.0许可协议,在学术使用时需引用原始论文及TPDL 2025会议成果。
背景与挑战
背景概述
EUR-Lex-Triples数据集诞生于2022年,由Aumiller等学者基于欧盟法律文献构建,专注于法律领域的关系抽取研究。该数据集源自EUR-Lex-Sum的英文部分,包含1504份精细标注的法律文档,旨在通过三元组形式捕捉法律条文中的实体关系。作为法律智能与自然语言处理交叉领域的重要资源,它不仅推动了法律文本的结构化解析,还为欧盟法律自动化分析提供了基准支持,对司法人工智能和合规技术发展具有显著影响力。
当前挑战
该数据集核心挑战在于解决法律文本中复杂语义关系的精确抽取,包括法律术语的多义性、长距离依赖关系的识别以及跨条款逻辑关联的捕捉。构建过程中面临标注一致性难题,需处理法律语言的高度专业性和结构性差异,同时确保三元组标注与法律条文语义的严格对齐。此外,多模型基线实验表明,传统预训练模型在法律领域表现受限,而大语言模型虽经微调仍存在召回率与精度不平衡的挑战。
常用场景
经典使用场景
EUR-Lex-Triples数据集在司法智能领域主要应用于法律文本的关系抽取任务,通过对欧洲立法文档中实体间语义关系的结构化标注,为法律知识图谱构建提供高质量训练数据。研究者利用该数据集训练深度学习模型,自动识别法律条款中的权利义务关系、法律引用关系和条件约束关系,显著提升了法律文档的机器可读性与解析精度。
解决学术问题
该数据集有效解决了法律文本中长距离依赖关系和复杂逻辑结构难以自动解析的学术难题,为法律自然语言处理提供了标准化评估基准。通过提供精确的三元组标注,它支持关系抽取模型在跨语言法律文本上的性能验证,推动了法律领域预训练语言模型的发展,并促进了法律知识表示学习的研究进展。
衍生相关工作
基于该数据集衍生的经典工作包括Legal-BERT在法律领域的适配优化、REBEL-Large模型在司法关系抽取中的性能突破,以及多模态法律知识图谱构建方法。这些研究不仅推动了Mistral和Zephyr等大模型在法律垂直领域的微调策略创新,还为跨法系法律智能比较研究提供了重要数据支撑。
以上内容由遇见数据集搜集并总结生成



