five

SensitiveQA|隐私保护数据集|问答系统数据集

收藏
arXiv2025-02-19 更新2025-02-21 收录
隐私保护
问答系统
下载链接:
https://github.com/ligw1998/PRIV-QA
下载链接
链接失效反馈
资源简介:
SensitiveQA是一个包含57,251个交互的双语(中文和英文)隐私问题回答数据集,由蚂蚁集团构建,旨在模拟实际用户与云大型语言模型之间的对话,包含个人隐私信息。该数据集适用于开放式的问答场景,可用于训练和保护用户查询的隐私,同时保持云LLM的高质量响应能力。
提供机构:
蚂蚁集团
创建时间:
2025-02-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
SensitiveQA数据集的构建旨在模拟用户与云端大型语言模型(LLMs)的实际交互,包含57,000个中英文对话,涵盖了各种用户敏感信息。数据集由两部分组成:背景文本和最终问题。背景文本可能包括之前的聊天对话、从本地知识库检索的段落或复杂的用户修改后的指令。每个查询都包含一个丰富的个人敏感信息背景文本和一个与之相关的问题。为了构建这个数据集,研究团队从新闻摘要、CLTS、WikipediaCN等来源收集了新闻和维基术语,并使用OpenAI GPT-4o生成了各种问题,包括信息提取、开放式问答和文本摘要。
特点
SensitiveQA数据集的独特之处在于其涵盖了广泛的主题和任务,并包含了丰富的个人敏感信息。这使得数据集适用于各种开放式的问答场景。数据集中的每个查询都包含一个背景文本和一个最终问题,背景文本中可能包含个人敏感信息,如个人或公司名称、日期和时间、位置、个人信息和敏感数字。此外,SensitiveQA数据集是第一个双语的一般隐私问答数据集,包含超过57,000个用户与云端LLMs的交互。
使用方法
SensitiveQA数据集可用于训练和评估保护用户隐私的问答系统。该数据集可以用于训练敏感信息检测模型、敏感词替换模型和重要词保留模型。这些模型可以帮助保护用户查询中的个人敏感信息,同时保持云端LLMs的响应质量。此外,SensitiveQA数据集可以用于评估隐私保护方法的有效性,如敏感信息检测率和查询保护率。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,其在人机交互领域中的应用日益广泛。然而,用户数据传输至云端LLMs的过程中存在数据泄露和个人信息被未授权访问的风险。为了解决这一问题,Guangwei Li等人提出了PRIV-QA框架,旨在保护用户隐私并确保LLMs交互过程中的信息安全。他们构建了SensitiveQA数据集,这是首个双语的开放性问题回答数据集,包含57k个中文和英文的交互数据,涵盖了用户敏感信息的广泛范围。该数据集为隐私保护技术的研究和应用提供了重要的基础。
当前挑战
SensitiveQA数据集和相关PRIV-QA框架面临的挑战包括:1) 如何在保护用户隐私的同时,保证LLMs回答的质量和准确性;2) 如何有效地识别和消除用户查询中的敏感信息,同时避免对LLMs理解能力的影响;3) 如何在保护用户隐私的同时,确保LLMs回答的完整性和连贯性;4) 如何提高SensitiveQA数据集的多样性和覆盖范围,以适应不同领域和场景的需求。
常用场景
经典使用场景
SensitiveQA数据集主要用于保护用户在云LLM交互过程中的隐私信息,确保敏感数据不被泄露。该数据集通过模拟用户与云LLM的对话,收集了大量包含个人隐私信息的交互数据,为隐私保护研究提供了宝贵资源。
实际应用
SensitiveQA数据集在实际应用中,可用于训练隐私保护模型,提高云LLM服务的安全性。通过SensitiveQA数据集训练的模型,可以有效地识别和替换用户查询中的敏感信息,同时保持LLM生成的回答质量。
衍生相关工作
SensitiveQA数据集衍生了PRIV-QA框架,该框架通过多阶段文本净化流程,将用户查询中的每个词或标记分类为三个不同的隐私和重要性级别,并根据其分配的级别在传输到云LLM之前对每个术语应用定制的保护机制。此外,SensitiveQA数据集还为隐私保护研究提供了新的研究方向,如敏感信息检测和恢复等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

大学生运动和体质健康数据集(2014-2023)

《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录