Interaction_Dialogue_with_Privacy
收藏Hugging Face2025-05-08 更新2025-05-09 收录
下载链接:
https://huggingface.co/datasets/Nidhogg-zh/Interaction_Dialogue_with_Privacy
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于自动标注用户与大型语言模型互动中隐私信息的对话数据集。基于自动隐私标注流程,从不同语言的对话数据集中提取隐私短语并注释隐私信息。数据集包含了来自一个英语对话数据集ShareGPT和三个中文对话数据集CrossWOZ、DuConv和LCCC-base的查询。适用于训练和评估用于隐私泄露分类、隐私短语提取和隐私信息总结的本地隐私检测模型。
创建时间:
2025-04-29
原始信息汇总
Interaction Dialogue Dataset with Extracted Privacy Phrases and Annotated Private Information
数据集详情
数据集描述
- 数据集名称:Automated Annotation of Privacy Information in User Interactions with Large Language Models
- 数据来源:包含一个英文对话数据集(ShareGPT)和三个中文对话数据集(CrossWOZ、DuConv、LCCC-base)
- 数据规模:249K查询,来自33K对话,包含154K隐私短语和对应信息
- 语言:英文和中文
数据集统计
| 语言 | 训练集(非泄漏/泄漏/短语数) | 测试集(非泄漏/泄漏/短语数) |
|---|---|---|
| 英文 | 52,053 / 26,156 / 67,780 | 12,792 / 6,658 / 17,540 |
| 中文 | 98,100 / 38,025 / 60,611 | 10,633 / 5,230 / 8,299 |
源数据链接
| 语言 | 语料库 | 源链接 |
|---|---|---|
| 英文 | ShareGPT | https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k |
| 中文 | CrossWOZ | https://github.com/thu-coai/CrossWOZ |
| 中文 | DuConv | https://aistudio.baidu.com/aistudio/datasetdetail/177164 |
| 中文 | LCCC-base | https://github.com/thu-coai/CDial-GPT |
直接用途
- 训练和评估本地隐私检测模型
- 研究用户交互对话的隐私检测
- 基准测试隐私检测模型的性能
数据集结构
数据文件
- 英文部分:
- English/pirvacy_information_train_en.json
- English/pirvacy_information_test_en.json
- 中文部分:
- Chinese/pirvacy_information_train_zh.json
- Chinese/pirvacy_information_test_zh.json
数据格式
- 每个样本包含:
- 用户查询("user")
- 助手响应("assistant")
- 注释隐私列表("privacy")
- "phrase":提取的隐私短语
- "privacy information":隐私短语的详细描述
数据集分析
- 英文数据集中前20个隐私类别的相对频率
- 英文数据集中已识别隐私信息的词云
数据集创建
创建理由
支持训练和评估用户与LLM交互的本地隐私检测模型
数据收集与处理
- 参考论文(正在审阅)和自动注释管道代码
建议
- 结合其他语料库使用以减轻文化或语言偏见
- 确保数据使用的责任性
搜集汇总
数据集介绍

构建方式
该数据集基于多语言对话语料库构建,采用自动化隐私标注流程对用户与大型语言模型交互中的隐私信息进行提取与标注。源数据涵盖英文ShareGPT及中文CrossWOZ、DuConv、LCCC-base四个公开对话数据集,通过系统性处理形成包含24.9万查询、15.4万隐私短语的标注资源。数据构建过程注重保留对话上下文关联,采用JSON格式结构化存储训练集与测试集,确保数据质量与可追溯性。
特点
数据集显著特征体现在多维度隐私标注体系,不仅识别隐私短语实体,更深入标注其语义信息类型。统计显示英语数据中状态、观点等隐性隐私占比突出,中文数据则呈现不同的分布模式。可视化分析揭示用户参与度与兴趣偏好是高频泄露内容,与传统网络文本的PII特征形成鲜明对比。数据覆盖英汉双语场景,包含完整对话序列标注,为隐私研究提供跨文化比较基础。
使用方法
该数据集适用于隐私泄露分类、隐私短语抽取及信息摘要三项核心任务。研究者可通过加载指定JSON文件获取带标注的对话数据,其中'privacy'字段包含短语级标注及语义解释。建议结合自动化标注管道扩展其他语料库,以缓解数据偏差。使用时应遵循伦理规范,特别在涉及个人身份信息的应用场景中需建立严格的数据治理机制。
背景与挑战
背景概述
Interaction_Dialogue_with_Privacy数据集由研究团队在2023年构建,旨在解决大型语言模型交互中的隐私信息自动标注问题。该数据集基于ShareGPT、CrossWOZ、DuConv和LCCC-base等多语言对话语料库,通过自动化隐私标注流程,提取并标注了超过249K查询中的154K隐私短语。其核心研究问题聚焦于用户与AI交互过程中隐私泄露的检测与分类,为隐私保护领域提供了首个大规模多语言标注资源。该数据集的建立填补了对话系统中细粒度隐私分析的空白,对促进可信AI的发展具有重要学术价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,对话隐私检测需克服开放域交互中隐私表达的多样性与模糊性,如用户状态、偏好等非结构化信息的识别;在构建过程中,多源数据整合导致的文化差异、自动化标注的准确率优化、以及中英文隐私表述的跨语言对齐构成主要技术难点。此外,平衡隐私敏感信息的保护与数据可用性,也是数据集应用中需要持续探索的关键问题。
常用场景
经典使用场景
在自然语言处理领域,Interaction_Dialogue_with_Privacy数据集为研究隐私信息检测提供了丰富的语料资源。该数据集通过标注对话中的隐私短语及其详细信息,为隐私泄漏分类、隐私短语提取和隐私信息摘要等任务提供了标准化的评估基准。其跨语言特性使得研究者能够比较不同语言环境下隐私泄露模式的差异,为多语言隐私保护研究奠定了基础。
衍生相关工作
该数据集已催生多项隐私保护领域的重要研究。基于其构建的隐私检测模型在ACL、EMNLP等顶级会议上发表了系列成果。部分研究进一步扩展了数据集的标注维度,增加了隐私敏感度分级标注;另有工作将其与用户行为分析相结合,开发了动态隐私保护框架,推动了对话系统隐私保护技术的发展。
数据集最近研究
最新研究方向
在大型语言模型(LLM)与用户交互日益频繁的背景下,隐私保护已成为自然语言处理领域的关键议题。Interaction_Dialogue_with_Privacy数据集通过自动化标注流程提取多语言对话中的隐私短语,为隐私检测研究提供了重要资源。当前研究聚焦于三个前沿方向:隐私泄露分类模型的细粒度优化,结合上下文理解的隐私短语抽取技术,以及跨语言隐私信息摘要生成。该数据集与ShareGPT、CrossWOZ等主流对话语料的结合,为探索用户交互场景下新型隐私泄露模式(如偏好、观点等非传统PII)提供了实验基础。随着欧盟AI法案等法规的实施,此类研究对开发符合隐私合规的对话系统具有显著意义。
以上内容由遇见数据集搜集并总结生成



