SensitiveQA
收藏arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://arxiv.org/abs/2502.13564
下载链接
链接失效反馈官方服务:
资源简介:
SensitiveQA是一个包含57,251个交互的双语(中文和英文)隐私问题回答数据集,由蚂蚁集团构建,旨在模拟实际用户与云大型语言模型之间的对话,包含个人隐私信息。该数据集适用于开放式的问答场景,可用于训练和保护用户查询的隐私,同时保持云LLM的高质量响应能力。
SensitiveQA is a bilingual (Chinese and English) privacy-focused question answering dataset containing 57,251 interactions, developed by Ant Group. It is built to simulate real-world conversations between end-users and cloud-based large language models (LLMs), and includes personal privacy information. This dataset is applicable to open-ended question answering scenarios, and can be utilized to train models to protect the privacy of user queries while maintaining the high-quality response capabilities of cloud LLMs.
提供机构:
蚂蚁集团
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
SensitiveQA数据集的构建旨在模拟用户与云端大型语言模型(LLMs)的实际交互,包含57,000个中英文对话,涵盖了各种用户敏感信息。数据集由两部分组成:背景文本和最终问题。背景文本可能包括之前的聊天对话、从本地知识库检索的段落或复杂的用户修改后的指令。每个查询都包含一个丰富的个人敏感信息背景文本和一个与之相关的问题。为了构建这个数据集,研究团队从新闻摘要、CLTS、WikipediaCN等来源收集了新闻和维基术语,并使用OpenAI GPT-4o生成了各种问题,包括信息提取、开放式问答和文本摘要。
特点
SensitiveQA数据集的独特之处在于其涵盖了广泛的主题和任务,并包含了丰富的个人敏感信息。这使得数据集适用于各种开放式的问答场景。数据集中的每个查询都包含一个背景文本和一个最终问题,背景文本中可能包含个人敏感信息,如个人或公司名称、日期和时间、位置、个人信息和敏感数字。此外,SensitiveQA数据集是第一个双语的一般隐私问答数据集,包含超过57,000个用户与云端LLMs的交互。
使用方法
SensitiveQA数据集可用于训练和评估保护用户隐私的问答系统。该数据集可以用于训练敏感信息检测模型、敏感词替换模型和重要词保留模型。这些模型可以帮助保护用户查询中的个人敏感信息,同时保持云端LLMs的响应质量。此外,SensitiveQA数据集可以用于评估隐私保护方法的有效性,如敏感信息检测率和查询保护率。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,其在人机交互领域中的应用日益广泛。然而,用户数据传输至云端LLMs的过程中存在数据泄露和个人信息被未授权访问的风险。为了解决这一问题,Guangwei Li等人提出了PRIV-QA框架,旨在保护用户隐私并确保LLMs交互过程中的信息安全。他们构建了SensitiveQA数据集,这是首个双语的开放性问题回答数据集,包含57k个中文和英文的交互数据,涵盖了用户敏感信息的广泛范围。该数据集为隐私保护技术的研究和应用提供了重要的基础。
当前挑战
SensitiveQA数据集和相关PRIV-QA框架面临的挑战包括:1) 如何在保护用户隐私的同时,保证LLMs回答的质量和准确性;2) 如何有效地识别和消除用户查询中的敏感信息,同时避免对LLMs理解能力的影响;3) 如何在保护用户隐私的同时,确保LLMs回答的完整性和连贯性;4) 如何提高SensitiveQA数据集的多样性和覆盖范围,以适应不同领域和场景的需求。
常用场景
经典使用场景
SensitiveQA数据集主要用于保护用户在云LLM交互过程中的隐私信息,确保敏感数据不被泄露。该数据集通过模拟用户与云LLM的对话,收集了大量包含个人隐私信息的交互数据,为隐私保护研究提供了宝贵资源。
实际应用
SensitiveQA数据集在实际应用中,可用于训练隐私保护模型,提高云LLM服务的安全性。通过SensitiveQA数据集训练的模型,可以有效地识别和替换用户查询中的敏感信息,同时保持LLM生成的回答质量。
衍生相关工作
SensitiveQA数据集衍生了PRIV-QA框架,该框架通过多阶段文本净化流程,将用户查询中的每个词或标记分类为三个不同的隐私和重要性级别,并根据其分配的级别在传输到云LLM之前对每个术语应用定制的保护机制。此外,SensitiveQA数据集还为隐私保护研究提供了新的研究方向,如敏感信息检测和恢复等。
以上内容由遇见数据集搜集并总结生成



