PRIV-QA

github2025-02-19 更新2025-02-24 收录

下载链接：

https://github.com/ligw1998/PRIV-QA

下载链接

链接失效反馈

官方服务：

资源简介：

PRIV-QA隐私保护问题回答的数据集，用于训练和评估云大型语言模型中的敏感信息检测和恢复。

PRIV-QA is a dataset for privacy-preserving question answering, tailored for training and evaluating sensitive information detection and recovery tasks in cloud-based large language models.

创建时间：

2025-02-17

原始信息汇总

PRIV-QA 数据集概述

数据集基本信息

名称: PRIV-QA
用途: 隐私保护问答系统
关联论文: PRIV-QA: Privacy-Preserving Question Answering for Cloud Large Language Models

数据集内容

代码文件:
- finetune_hide.sh: 用于从开源Qwen2_0.5B模型微调隐藏模型的bash脚本
- finetune_recover.sh: 用于从开源Qwen2_1.5B模型微调恢复模型的bash脚本
评估脚本目录 (eval/):
- eval_sensitive.py: 使用敏感模型检测用户查询中的敏感词并根据真实值评估精确率和召回率
- eval_hide.py: 使用检测到的敏感词和本地隐藏模型生成替换对
- sub_text_withpair.py: 使用替换对替换用户查询中的敏感信息
- func.py: 文本混淆函数
- eval_recover.py: 使用本地恢复模型恢复云LLM的响应
- eval_generation.py: 根据真实响应评估恢复后的响应质量
- util.py: 实用函数

依赖环境

torch >= 2.0.0
transformers
ms-swift
deepspeed

搜集汇总

数据集介绍

构建方式

PRIV-QA数据集的构建是基于对开源大型语言模型Qwen2的微调。该数据集包含了一系列的bash脚本，用于执行模型的微调、敏感词检测、文本替换以及对恢复文本质量的评估。构建过程中，使用了ms-swift、transformers和deepspeed等工具，以确保模型的训练和评估的效率和效果。

特点

该数据集的特点在于其对隐私保护问答的专注，旨在通过敏感词检测和文本替换机制，对用户查询中的敏感信息进行遮蔽，并使用本地模型恢复云LLM的响应。数据集包含了敏感词检测、信息遮蔽、文本恢复等一系列功能模块，并提供了评估指标，如精确度和召回率，以衡量敏感词检测的效果和恢复文本的质量。

使用方法

用户可以通过执行提供的bash脚本来进行模型的微调和评估。具体包括使用敏感模型检测查询中的敏感词，使用遮蔽模型生成替换对，利用替换对在查询中替换敏感信息，以及使用恢复模型评估恢复的响应质量。此外，还提供了用于文本混淆的实用函数和效用函数，以辅助整个处理过程。

背景与挑战

背景概述

PRIV-QA数据集的创建旨在解决云计算环境下大型语言模型处理用户查询时可能涉及的隐私泄露问题。该数据集的研究背景源于对大型语言模型，如云端的LLM（Large Language Model）在处理用户查询时，如何在不侵犯用户隐私的前提下，实现敏感信息的检测与遮蔽的需求。该数据集由相关研究人员和机构开发于近年，其研究成果在隐私保护的自然语言处理领域具有重要影响力，为隐私保护的问题回答提供了实验基础和解决方案。

当前挑战

该数据集面临的挑战主要分为两个方面：一是技术层面，如何在保证查询响应质量的同时，有效地检测并遮蔽用户查询中的敏感信息，这要求模型具有高度的精确性和鲁棒性；二是构建过程中的挑战，包括敏感信息的界定、数据标注的一致性以及训练过程中的隐私保护。此外，数据集在构建过程中还需解决如何平衡隐私保护与信息透明度，以及如何保证模型在遮蔽敏感信息后仍能提供有效回答的问题。

常用场景

经典使用场景

在隐私保护领域，PRIV-QA数据集的经典使用场景是针对云计算环境中大规模语言模型的问答系统，实现对用户查询中敏感信息的检测与替换，进而保护用户的隐私不被泄露。该数据集提供了敏感词检测、信息隐藏及恢复等功能的脚本，使得研究者在模型训练与评估过程中能够有效实施隐私保护措施。

衍生相关工作

基于PRIV-QA数据集，研究者们衍生出一系列相关工作，包括但不限于隐私保护的模型训练方法、敏感信息检测算法的改进，以及隐私保护性能评估指标体系的构建等，这些研究进一步推动了隐私保护技术在自然语言处理领域的发展。

数据集最近研究