AIReg-Bench
收藏arXiv2025-10-02 更新2025-10-04 收录
下载链接:
https://github.com/camlsys/aireg-bench
下载链接
链接失效反馈官方服务:
资源简介:
AIReg-Bench数据集是首个用于测试大型语言模型(LLMs)在评估人工智能系统是否符合欧盟人工智能法案(AIA)方面的能力的基准数据集。该数据集包含120个技术文档摘录,每个摘录描述了一个虚构但合理的AI系统,这些摘录由LLM生成,并由法律专家标注。数据集的创建旨在提供一个基准,用于理解和评估基于LLM的AI合规性评估工具的机会和局限性,并作为后续LLMs比较的基准。
提供机构:
University of Cambridge, University of Luxembourg, University of Warwick
创建时间:
2025-10-02
搜集汇总
数据集介绍

构建方式
在人工智能监管合规评估领域,AIReg-Bench通过融合大语言模型生成与法律专家标注的双重机制构建而成。首先采用分阶段提示工程方法,以GPT-4.1-mini为核心生成涵盖8类高风险场景的120份技术文档片段,每个片段模拟真实AI供应商为证明符合《欧盟人工智能法案》特定条款而编制的材料。随后由六位具备法律背景的专家团队进行三重独立标注,通过李克特量表量化合规概率,并辅以定性分析确保标注深度。这种构建方式既解决了真实技术文档稀缺的困境,又通过专家验证保障了数据的专业性与可信度。
特点
该数据集最显著的特征在于其精准的领域适配性与多维度的评估体系。所有技术文档片段严格限定于《欧盟人工智能法案》定义的高风险AI系统范畴,覆盖交通管控、信用评估等八大应用场景,并针对法案第9、10、12、14和15条关键条款设计合规情景。数据集通过平衡生成策略确保样本分布多样性,其中三分之一刻意导向合规案例,其余则呈现不同程度的违规情形。每个片段均附带法律专家提供的合规概率评分、合理性评估及详细法理分析,形成可量化比较的基准框架,为LLM合规评估能力提供立体化测评维度。
使用方法
研究人员可通过标准化流程将该数据集应用于大语言模型合规评估能力的基准测试。使用时需向待评估模型输入与法律专家相同的技术文档片段、系统描述及法案条款文本,要求模型输出1-5分的合规概率评分及法理依据。评估结果通过计算模型输出与专家标注中位数的科恩卡帕系数、斯皮尔曼相关系数等指标进行量化比对。数据集配套的开源代码库支持生成管道复用,允许研究者扩展至其他监管法规评估场景,或通过调整生成参数创建定制化测试样本。
背景与挑战
背景概述
随着全球人工智能监管框架的快速发展,欧盟《人工智能法案》作为首个综合性AI法律于2024年正式生效,对高风险AI系统的合规评估提出严格要求。在此背景下,剑桥大学、卢森堡大学及华威大学等机构的研究团队于2025年联合推出AIReg-Bench基准数据集,旨在填补大语言模型在AI法规合规评估能力量化测评领域的空白。该数据集通过生成式技术构建120个高风险AI系统的技术文档片段,并由法律专家进行合规标注,为探索基于LLM的自动化合规评估工具提供了关键研究基础。
当前挑战
该数据集致力于解决AI法规合规评估领域的两大核心挑战:在领域问题层面,传统人工合规评估存在成本高昂与周期冗长的痛点,需构建能够精准识别技术文档中违反特定法律条款的智能评估系统;在构建过程中,面临真实技术文档稀缺与专家标注成本高的双重制约,需通过可控的LLM生成流程确保样本的多样性与法律合理性,同时应对新兴法规缺乏判例参考导致的标注主观性问题。
常用场景
经典使用场景
在人工智能监管日益严格的背景下,AIReg-Bench作为首个针对欧盟《人工智能法案》合规性评估的基准数据集,其经典应用场景聚焦于测试大语言模型对高风险管理AI系统技术文档的合规判断能力。通过模拟真实场景中AI供应商提交的120份技术文档片段,该数据集为研究界提供了标准化评估框架,使模型能够在受控环境中对交通管控、信用评分等高风险场景的合规性进行量化分析。
实际应用
在实际应用层面,AIReg-Bench可直接服务于监管科技领域,帮助政府机构、第三方审计机构及企业合规部门开发自动化合规检测工具。例如金融机构可利用该数据集训练风险评估模型,快速筛查信贷审批AI系统是否满足《欧盟人工智能法案》第10条数据治理要求;科技公司则能借此优化内部合规流程,将原本耗时数日的人工审查压缩至分钟级,显著降低高达7500欧元的单系统合规成本。
衍生相关工作
该数据集已催生多项创新性衍生研究:Makovec等人基于检索增强生成技术开发了合规预测框架,Davvetas团队构建了面向AI系统的自适应风险评估工具。更值得关注的是,Sovrano等人的研究将LLM生成技术应用于合规文档自动起草,而Bogucka等人则探索了多模态合规影响评估报告生成系统。这些工作共同构成了以AIReg-Bench为基石的AI治理技术生态,为后续扩展至其他司法管辖区法规评估奠定了基础。
以上内容由遇见数据集搜集并总结生成



