COAT Privacy Policy Analysis Dataset

github2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/maczg/coat-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

COAT（全面在线协议透明度）项目使用LLMs自主分析、解释和评估隐私政策。在这个早期开发阶段，COAT通过结构化的评分方法量化隐私风险，并提供关键政策段落的可访问引用以证明计算得分的合理性。该数据集包含使用PrivacySpy方法对多个LLM模型的隐私政策分析结果，用于评估和评分隐私政策。

COAT (Comprehensive Online Agreement Transparency) project utilizes LLMs to autonomously analyze, interpret, and evaluate privacy policies. At this early stage of development, COAT quantifies privacy risks via a structured scoring methodology, and provides accessible citations of key policy paragraphs to justify the calculated scores. This dataset contains privacy policy analysis results of multiple LLM models generated using the PrivacySpy methodology, and is designed for the evaluation and scoring of privacy policies.

创建时间：

2025-06-06

原始信息汇总

COAT隐私政策分析数据集概述

数据集简介

项目名称：COAT Privacy Policy Analysis Dataset
项目目的：利用LLM模型自主分析、解释和评估隐私政策
方法论：基于PrivacySpy的评分方法，通过结构化评分量化隐私风险
特点：提供关键政策段落的引用以支持评分结果

基本数据信息

版本：1.0
发布日期：2025-06-05
包含政策数量：269
分析模型：
- baseline
- o1
- o3
- o4-mini
- qwen3:30b-a3b (ollama)

文件结构

主数据文件：
- dataset.json：完整JSON格式数据集
- dataset.csv：扁平化CSV格式数据集
Parquet格式文件：
- dataset_policies.parquet：政策基本信息
- dataset_scores.parquet：模型评分和细则详情
元数据文件：
- schema.json：数据集结构定义

数据内容

1. 政策信息

基本信息：ID、名称、slug、描述
来源信息：来源URL、主机名
更新时间：最后更新日期

2. 模型评分

总体评分：各模型的综合评分
性能指标：延迟、实验ID
Token使用量：prompt_tokens, response_tokens
细则评估详情：
- 单项细则评分
- 各细则选项选择
- 政策文本引用
- 分类评分细目

3. 统计信息

模型性能指标
评分分布
查询统计
Token使用统计

文件格式说明

JSON格式

完整嵌套结构
包含全部政策信息
完整细则评估
所有模型评分和指标
Token使用详情
详细统计数据

CSV格式

扁平化结构
包含：
- 基本政策信息
- 总体模型评分
- Token使用指标
- 单项细则评分
- 细则选项和引用
- 性能指标

Parquet格式

分为两个独立文件：
1. 政策信息文件
2. 评分信息文件

使用示例

CSV分析示例

python import pandas as pd df = pd.read_csv(dataset.csv)

获取特定模型的所有细则评分

o1_rubric_scores = df.filter(regex=^o1_rubric_.*_score$)

分析token使用

token_usage = df[[o1_prompt_tokens, o1_response_tokens]]

Parquet分析示例

python import pandas as pd

加载带细则详情的评分

scores_df = pd.read_parquet(dataset_scores.parquet)

分析特定细则项

behavioral_marketing = scores_df[scores_df[rubric_slug] == behavioral-marketing]

分析token使用

token_stats = scores_df.groupby(model)[[prompt_tokens, response_tokens]].mean()

致谢

欧盟Horizon Europe研究计划资助
NGI Sargasso级联基金支持

搜集汇总

数据集介绍

构建方式

COAT隐私政策分析数据集采用了一种创新的构建方法，通过结合PrivacySpy的评估框架与大语言模型（LLM）的自动化分析能力，对269份隐私政策进行了系统性的量化评估。数据集构建过程中，首先基于PrivacySpy提供的政策引用文本作为输入，随后运用包括o1、o3、o4-mini和qwen3:30b-a3b在内的多种LLM模型进行多维度评分。这种双重评估机制既保留了PrivacySpy原有的结构化评分体系，又融入了LLM对政策文本的深度语义理解，形成了包含基线评分与模型生成评估的复合数据集。

特点

该数据集最显著的特点在于其多层次的分析架构。不仅包含政策基本信息、模型总体评分等基础数据，还详细记录了每个评估项的具体得分、选项选择、政策文本引用以及分类评分细则。数据集以JSON、CSV和Parquet三种格式提供，满足不同场景下的使用需求。其中JSON格式保留了完整的嵌套结构，CSV格式便于快速统计分析，而Parquet格式则针对大规模数据处理进行了优化。特别值得注意的是，数据集还包含了模型延迟、实验ID、token使用量等元数据，为研究LLM在政策分析中的性能表现提供了宝贵资料。

使用方法

使用该数据集时，研究人员可根据具体需求选择合适的文件格式进行加载分析。对于快速统计分析，可直接使用CSV格式通过pandas等工具进行数据处理，如筛选特定模型的评分项或分析token使用情况。当需要深入分析具体评估细则时，Parquet格式提供的结构化数据支持更复杂的查询操作，例如针对特定评估项（如行为营销）的专项分析。JSON格式则适用于需要完整数据结构的应用场景。数据集中的模型性能指标和token统计信息，为评估不同LLM在隐私政策分析任务中的效率与准确性提供了量化依据。

背景与挑战

背景概述

COAT隐私政策分析数据集诞生于2025年6月，由欧盟地平线欧洲研究计划资助的COAT项目团队开发，该项目致力于运用大语言模型技术实现隐私政策的自动化解析与风险评估。作为PrivacySpy方法论在人工智能时代的延伸，该数据集创新性地融合了传统规则引擎与深度学习优势，通过对269份隐私政策的多维度量化评估，为数字权利保护领域提供了可解释的算法决策基准。其采用的动态评分体系和关键条款引证机制，显著提升了隐私透明度研究的可复现性和科学价值。

当前挑战

在解决隐私政策结构化解析这一核心问题时，数据集面临语义歧义消除与法律条款上下文关联的双重挑战。政策文本中存在的模糊表述、跨地域法律差异以及动态更新特性，对模型的一致性评估能力提出严峻考验。构建过程中，研究团队需克服多模态数据对齐的技术瓶颈，包括原始政策文档非结构化特征与量化评分体系的映射难题，以及不同大语言模型输出结果的标准化处理。此外，保持评估框架在欧盟GDPR、美国CCPA等不同法律体系下的适用性，也是数据集持续迭代的关键挑战。

常用场景

经典使用场景

在隐私政策分析领域，COAT数据集通过整合多模型评估结果，为研究者提供了一个标准化的基准平台。该数据集最经典的使用场景在于对比不同大型语言模型（LLM）对同一隐私政策的解析能力差异，研究人员可通过横向比较各模型在评分一致性、引用准确性和风险评估等方面的表现，验证自动化政策分析工具的可靠性。其结构化评分体系与细粒度引用标注，特别适合用于检验模型在复杂法律文本理解任务中的泛化性能。

解决学术问题

该数据集有效解决了隐私政策量化评估中的两大核心难题：一是通过PrivacySpy方法论与LLM技术的融合，建立了可复现的自动化评估框架，克服了传统人工审核效率低下的瓶颈；二是其详尽的评分细则与政策原文引用，为研究法律文本的机器理解机制提供了可解释性分析素材。这在推动计算法学与AI伦理交叉研究方面具有重要意义，尤其为验证生成式AI在专业领域应用的可靠性提供了实证基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在三个方向：一是改进型评估框架的开发，如斯坦福大学提出的PolicyLM通过引入对抗性测试提升模型鲁棒性；二是跨语言政策分析研究，如ETH Zurich团队构建的多语言扩展数据集PrivacyX；三是可解释性增强技术，剑桥大学利用该数据集的引用标注训练注意力可视化工具，显著提升了模型决策的透明度。这些工作共同推动了自动化法律文本分析领域的方法论创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集