Expert-Generated Privacy Q&A Dataset

Name: Expert-Generated Privacy Q&A Dataset
Creator: 德国弗劳恩霍夫集成电路研究所(IIS)
Published: 2025-02-03 20:30:45
License: 暂无描述

arXiv2025-02-03 更新2025-02-11 收录

下载链接：

https://github.com/audiolabs/Expert-Generated-Privacy-QA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Expert-Generated Privacy Q&A Dataset是由德国弗劳恩霍夫集成电路研究所专家创建的隐私问答数据集。该数据集通过法律专业人士和对话设计师的迭代过程开发，旨在创建既易于理解又具有法律效力的答案。数据集包含了42个最具代表性的隐私问题及其对应的答案，涵盖了九种信息类型和六种数据处理类别，旨在提高会话AI和自然语言处理应用的数据处理信息透明度和可访问性。

The Expert-Generated Privacy Q&A Dataset is a privacy-focused question-and-answer dataset developed by experts at the Fraunhofer Institute for Integrated Circuits (Germany). This dataset was constructed via an iterative workflow involving legal professionals and conversation designers, with the goal of producing answers that are both comprehensible and legally enforceable. The dataset comprises 42 of the most representative privacy-related questions alongside their corresponding answers, spanning nine information types and six data processing categories. It is designed to improve the transparency and accessibility of data processing information for conversational AI and natural language processing (NLP) applications.

提供机构：

德国弗劳恩霍夫集成电路研究所(IIS)

创建时间：

2025-02-03

搜集汇总

数据集介绍

构建方式

本数据集的构建采用了多阶段迭代的方法，首先通过场景驱动的调查收集了400个隐私问题，然后通过语义文本相似度（STS）与Sentence-BERT技术筛选出最具代表性的42个问题。随后，研究人员收集了三种类型的答案：亚马逊Alexa的回复、隐私政策的摘录以及由对话设计师和律师专家共同设计的答案。为了确保答案的准确性和易懂性，研究人员采用了专家循环的方法，招募了法律和技术专家进行多轮修订。最终，通过对亚马逊Alexa的回答、隐私政策的摘录和专家设计的答案进行语言分析和用户研究，评估了这三种类型的答案。

特点

该数据集的特点在于其专业性和实用性。首先，它涵盖了九种信息类型，包括语音录音、联系人信息、位置等，这些问题是智能助手通常收集的，能够反映不同信息敏感度的差异。其次，数据集包含了六种数据实践类别，如用户权利和选择/控制、第三方收集/使用等，这些问题覆盖了用户在使用智能助手时可能关心的各个方面。最后，数据集包含了三种类型的答案，包括亚马逊Alexa的回复、隐私政策的摘录以及专家设计的答案，这些答案旨在满足不同用户的需求，提高用户对隐私政策的理解。

使用方法

使用该数据集的方法主要分为三个步骤：首先，用户可以查询数据集中包含的隐私问题，以了解智能助手可能知道的信息；其次，用户可以查看三种类型的答案，包括亚马逊Alexa的回复、隐私政策的摘录和专家设计的答案，以获取关于隐私问题的详细解答；最后，用户可以根据自己的需求选择最合适的答案，以提高对隐私政策的理解。此外，研究人员还可以使用该数据集来评估和改进智能助手对隐私问题的回答能力，以提供更加准确和易懂的答案。

背景与挑战

背景概述

随着对话式人工智能（CAI）系统在收集、处理和存储个人数据方面的广泛应用，用户对于如何处理其数据的需求日益增长。隐私政策旨在确保透明度和符合法规要求（例如，欧盟的通用数据保护条例（GDPR）或美国的“通知和选择”原则）。然而，隐私政策往往难以阅读，且在促进透明度方面效果不佳。现有的解决方案，如隐私标签，提高了可访问性，但缺乏自然语言政策的细节。同时，机器可读的隐私政策提高了可审计性，但未能适当地向用户传达信息。对于基于语音的CAI系统而言，透明度挑战尤其显著，因为这些系统往往缺乏图形界面。即使是简化文本格式，如亚马逊Alexa的隐私常见问题解答，也需要用户切换模式，导致可访问性有限。隐私问答（Q&A）可以通过使CAI系统能够以自然语言回答与隐私相关的用户问题来提高透明度和可访问性。本研究旨在通过以下四个方面推进CAI的隐私问答：（1）通过场景驱动的调查收集CAI的隐私问题；（2）通过评估亚马逊Alexa的响应和隐私政策摘录来分析当前最先进的技术；（3）通过与法律专家和对话设计师的合作开发用户友好且合法有效的答案；（4）通过语言分析和用户研究评估三种答案类型——Alexa答案、隐私政策摘录和设计答案。研究结果表明，与现有解决方案相比，提出的答案提高了可用性和清晰度，同时达到了法律精确度，从而提高了对话式人工智能和自然语言处理应用的透明度。

当前挑战

构建过程中所遇到的挑战包括：（1）隐私问答领域的挑战，如隐私标签缺乏自然语言政策的细节，机器可读的隐私政策未能适当地向用户传达信息；（2）对话式人工智能系统缺乏图形界面，导致透明度挑战尤其显著；（3）现有的解决方案如亚马逊Alexa的隐私常见问题解答需要用户切换模式，导致可访问性有限；（4）现有隐私问答语料库基于政策摘录，但摘录对非专家来说仍然难以理解，且很少涉及与语音相关的CAI系统的数据类型，如语音录音。此外，使用预训练语言模型直接从隐私政策中提取答案的方法被发现大多不适合，且难以回答无法回答的问题。因此，需要对话设计师和法律专家之间的合作，以确保答案既易于理解又具有法律精确度。

常用场景

经典使用场景

该数据集的经典使用场景在于为对话式人工智能（CAI）系统提供隐私问题解答的数据支持。通过对隐私政策的深入解析，以及对对话式设计的精细打磨，该数据集旨在生成既符合法律规定又易于用户理解的隐私问答，以提升CAI系统的透明度和用户满意度。

衍生相关工作

该数据集的创建方法和技术为隐私问答领域的进一步研究提供了重要的参考和启示。未来，基于该数据集的研究可以探索如何根据不同用户群体的需求，提供更加个性化的隐私问答服务，以及如何进一步优化隐私问答系统的透明度和可访问性。

数据集最近研究