Interaction_Dialogue_with_Privacy

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/Nidhogg-zh/Interaction_Dialogue_with_Privacy

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于自动标注用户与大型语言模型互动中隐私信息的对话数据集。基于自动隐私标注流程，从不同语言的对话数据集中提取隐私短语并注释隐私信息。数据集包含了来自一个英语对话数据集ShareGPT和三个中文对话数据集CrossWOZ、DuConv和LCCC-base的查询。适用于训练和评估用于隐私泄露分类、隐私短语提取和隐私信息总结的本地隐私检测模型。

创建时间：

2025-04-29

原始信息汇总

Interaction Dialogue Dataset with Extracted Privacy Phrases and Annotated Private Information

数据集详情

数据集描述

数据集名称：Automated Annotation of Privacy Information in User Interactions with Large Language Models
数据来源：包含一个英文对话数据集（ShareGPT）和三个中文对话数据集（CrossWOZ、DuConv、LCCC-base）
数据规模：249K查询，来自33K对话，包含154K隐私短语和对应信息
语言：英文和中文

数据集统计

语言	训练集（非泄漏/泄漏/短语数）	测试集（非泄漏/泄漏/短语数）
英文	52,053 / 26,156 / 67,780	12,792 / 6,658 / 17,540
中文	98,100 / 38,025 / 60,611	10,633 / 5,230 / 8,299

源数据链接

语言	语料库	源链接
英文	ShareGPT	https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k
中文	CrossWOZ	https://github.com/thu-coai/CrossWOZ
中文	DuConv	https://aistudio.baidu.com/aistudio/datasetdetail/177164
中文	LCCC-base	https://github.com/thu-coai/CDial-GPT

直接用途

训练和评估本地隐私检测模型
研究用户交互对话的隐私检测
基准测试隐私检测模型的性能

数据集结构

数据文件

英文部分：
- English/pirvacy_information_train_en.json
- English/pirvacy_information_test_en.json
中文部分：
- Chinese/pirvacy_information_train_zh.json
- Chinese/pirvacy_information_test_zh.json

数据格式

每个样本包含：
- 用户查询（"user"）
- 助手响应（"assistant"）
- 注释隐私列表（"privacy"）
  - "phrase"：提取的隐私短语
  - "privacy information"：隐私短语的详细描述

数据集分析

英文数据集中前20个隐私类别的相对频率
英文数据集中已识别隐私信息的词云

数据集创建

创建理由

支持训练和评估用户与LLM交互的本地隐私检测模型

数据收集与处理

参考论文（正在审阅）和自动注释管道代码

建议

结合其他语料库使用以减轻文化或语言偏见
确保数据使用的责任性

搜集汇总

数据集介绍

构建方式

该数据集基于多语言对话语料库构建，采用自动化隐私标注流程对用户与大型语言模型交互中的隐私信息进行提取与标注。源数据涵盖英文ShareGPT及中文CrossWOZ、DuConv、LCCC-base四个公开对话数据集，通过系统性处理形成包含24.9万查询、15.4万隐私短语的标注资源。数据构建过程注重保留对话上下文关联，采用JSON格式结构化存储训练集与测试集，确保数据质量与可追溯性。

特点

数据集显著特征体现在多维度隐私标注体系，不仅识别隐私短语实体，更深入标注其语义信息类型。统计显示英语数据中状态、观点等隐性隐私占比突出，中文数据则呈现不同的分布模式。可视化分析揭示用户参与度与兴趣偏好是高频泄露内容，与传统网络文本的PII特征形成鲜明对比。数据覆盖英汉双语场景，包含完整对话序列标注，为隐私研究提供跨文化比较基础。

使用方法

该数据集适用于隐私泄露分类、隐私短语抽取及信息摘要三项核心任务。研究者可通过加载指定JSON文件获取带标注的对话数据，其中'privacy'字段包含短语级标注及语义解释。建议结合自动化标注管道扩展其他语料库，以缓解数据偏差。使用时应遵循伦理规范，特别在涉及个人身份信息的应用场景中需建立严格的数据治理机制。

背景与挑战

背景概述

Interaction_Dialogue_with_Privacy数据集由研究团队在2023年构建，旨在解决大型语言模型交互中的隐私信息自动标注问题。该数据集基于ShareGPT、CrossWOZ、DuConv和LCCC-base等多语言对话语料库，通过自动化隐私标注流程，提取并标注了超过249K查询中的154K隐私短语。其核心研究问题聚焦于用户与AI交互过程中隐私泄露的检测与分类，为隐私保护领域提供了首个大规模多语言标注资源。该数据集的建立填补了对话系统中细粒度隐私分析的空白，对促进可信AI的发展具有重要学术价值。

当前挑战

该数据集面临双重挑战：在领域问题层面，对话隐私检测需克服开放域交互中隐私表达的多样性与模糊性，如用户状态、偏好等非结构化信息的识别；在构建过程中，多源数据整合导致的文化差异、自动化标注的准确率优化、以及中英文隐私表述的跨语言对齐构成主要技术难点。此外，平衡隐私敏感信息的保护与数据可用性，也是数据集应用中需要持续探索的关键问题。

常用场景

经典使用场景

在自然语言处理领域，Interaction_Dialogue_with_Privacy数据集为研究隐私信息检测提供了丰富的语料资源。该数据集通过标注对话中的隐私短语及其详细信息，为隐私泄漏分类、隐私短语提取和隐私信息摘要等任务提供了标准化的评估基准。其跨语言特性使得研究者能够比较不同语言环境下隐私泄露模式的差异，为多语言隐私保护研究奠定了基础。

衍生相关工作

该数据集已催生多项隐私保护领域的重要研究。基于其构建的隐私检测模型在ACL、EMNLP等顶级会议上发表了系列成果。部分研究进一步扩展了数据集的标注维度，增加了隐私敏感度分级标注；另有工作将其与用户行为分析相结合，开发了动态隐私保护框架，推动了对话系统隐私保护技术的发展。

数据集最近研究