eu-delegation-constraints-annotations

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/giovannip/eu-delegation-constraints-annotations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含来自欧洲联盟次级立法的手动注释法律句子的集合，专注于与委托和约束相关的规定。注释按执行行为者分类，并包括软义务、软实施权力和议程设置特权。该数据集旨在用于训练多标签法律文本分类器，并研究欧盟立法中的执行自由裁量权。

创建时间：

2025-11-13

原始信息汇总

数据集概述

基本描述

数据集名称：欧盟代表团约束标注数据集
主要内容：手工标注的法律句子，识别欧盟二级立法中的授权和约束条款
时间范围：1958-2019年
法律类型：指令和法规
标注对象：四个执行主体的授权和约束条款
- 成员国
- 国家主管当局
- 欧洲委员会
- 超国家机构

技术规格

语言：英语
许可证：CC BY 4.0
数据量：3,000个句子
数据格式：CSV和Parquet
数据分割：单一训练集
任务类型：文本分类
领域标签：法律

数据特征

字段名称	描述
id_coder	句子标识符
text	欧盟立法中的法律句子
del_ms	对成员国的授权
con_ms	对成员国的约束
so_ms	对成员国的软义务
del_nca	对国家主管当局的授权
con_nca	对国家主管当局的约束
so_nca	对国家主管当局的软义务
agenda	委员会的议程设置特权
del_com	对委员会的授权
si_com	委员会的软执行权力
con_com	对委员会的约束
del_age	对超国家机构的授权
si_age	超国家机构的软执行权力
con_age	对超国家机构的约束

标注信息

标注类型：多标签二进制分类（1=存在，0=不存在）
标注单元：法律句子
标注方式：基于提取手册的专家编码
编码者一致性：κ = 0.9

数据来源

原始语料：CEPS Eur-Lex语料库（1958-2019）
预处理：移除序言和签名，按句法边界分割句子

主要用途

训练或评估多标签法律文本分类器
研究欧盟行为者和立法工具中执行裁量权的分布

引用信息

APA格式 Franchino, F., Migliorati, M., Pagano, G., & Vignoli, V. (2025). Identifying Delegation and Constraints in Legislative Texts: A Computational Method Applied to the European Union. European Union Politics.

搜集汇总

数据集介绍

构建方式

在欧盟法律文本分析领域，该数据集通过系统化人工标注构建而成。研究团队从CEPS Eur-Lex语料库（1958-2019年）中提取法律条文，经过预处理阶段移除序言和签署部分，依据句法边界完成句子切分。由具备欧盟法律与政治学背景的专业人员组成的标注团队，严格遵循基于规则的提取手册，对3000个法律句子进行多维度标注，核心标注者间信度达到κ=0.9的优异水平，确保了标注结果的科学性与一致性。

特点

该数据集在立法文本计算分析领域展现出显著特征。其标注体系精细刻画了四种行政主体的授权与约束关系：成员国、国家主管机构、欧盟委员会及超国家机构，同时涵盖软性义务、软性实施权力等非强制性合作条款。每个句子采用多标签二进制编码机制，支持同时标注多个法律语义类别。数据集特别聚焦于欧盟二级立法中的句法与语义特征，为研究行政裁量权在欧盟机构间的分布提供了结构化观测窗口。

使用方法

在计算法学研究实践中，该数据集支持多种分析方法的应用。研究者可将其作为训练集或测试集，开发基于规则或Transformer架构的多标签法律文本分类器，专门用于检测立法文本中的授权与约束条款。通过解析数据集中标注的行政主体权限分布，能够深入探究欧盟不同立法工具中执行裁量权的演变规律。数据集提供的结构化标注为定量分析欧盟法律条文中的权力配置模式奠定了实证基础。

背景与挑战

背景概述

欧盟立法文本分析领域长期面临权力分配机制自动识别的技术空白，eu-delegation-constraints-annotations数据集应运而生。该数据集由米兰大学、苏黎世联邦理工学院等机构学者于2025年联合构建，聚焦欧盟二级立法中授权与约束条款的标注工作，涵盖1958至2019年间指令与条例的3000条法律语句。通过标注成员国、国家主管机构、欧盟委员会及超国家机构四类主体的权力配置关系，该资源为计算法学研究提供了关键标注基准，显著推进了欧盟法律文本结构化分析的实证研究进程。

当前挑战

法律文本中授权与约束条款的自动识别面临多重挑战：其一是法律语言具有高度抽象性与多义性，同一语句可能同时包含授权与限制的双重语义特征；其二是标注过程需兼顾软性义务、议程设置等非强制性条款的边界判定。在数据构建阶段，专家团队需克服欧盟立法文本跨时空演变带来的术语体系差异，通过制定精细化编码手册达成0.9的科恩卡帕系数，确保多标注者间的一致性。这些技术难点凸显了法律自然语言处理任务中语义粒度控制与领域知识融合的核心困境。

常用场景

经典使用场景

在欧盟法律文本分析领域，该数据集为识别授权与约束条款提供了标准化标注框架。其核心应用场景聚焦于训练多标签法律文本分类模型，通过解析欧盟二级立法中的句子结构，精准识别对成员国、国家主管机构、欧盟委员会及超国家机构等四类主体的权力分配与限制条款。这种基于句法语义特征的标注体系，为计算法学研究建立了可复现的评估基准。

解决学术问题

该数据集有效解决了法律文本中权力分配机制的量化难题。通过系统标注授权、约束及软性义务等法律概念，为研究欧盟行政裁量权的分布规律提供了数据支撑。其标注体系突破了传统法律分析的主观局限性，使学者能够从计量视角探究立法文本中权力制衡机制，推动了法律实证研究与计算社会科学的方法论融合。

衍生相关工作

基于该数据集衍生的经典研究包括欧盟法律特征工程框架的构建。研究者开发了专用BERT变体模型，如eu-delegation-constraints-bert系列，实现了对复杂法律条款的端到端识别。这些工作进一步推动了法律文本挖掘与政治学的交叉研究，催生了针对欧盟立法演变规律的纵向比较分析，为超国家治理研究提供了新的方法论范式。

以上内容由遇见数据集搜集并总结生成