SynthPAI

github2024-06-13 更新2024-06-15 收录

下载链接：

https://github.com/eth-sri/SynthPAI

下载链接

链接失效反馈

官方服务：

资源简介：

SynthPAI是一个用于个人属性推断的合成数据集，旨在补充对大型语言模型个人属性推断能力的早期研究。该数据集通过生成Reddit帖子形式的数据，模拟真实行为，用于模型对个人属性的推断。

SynthPAI is a synthetic dataset for personal attribute inference, designed to supplement early research on the personal attribute inference capabilities of large language models (LLMs). This dataset generates data in the form of Reddit posts to simulate real-world user behaviors, and is tailored for model-based personal attribute inference tasks.

创建时间：

2024-06-05

原始信息汇总

数据集概述

数据集名称： SynthPAI: A Synthetic Dataset for Personal Attribute Inference

数据集目的： 该数据集旨在补充研究个人属性推断能力的大型语言模型（LLMs），并用于在新模型上进行个人属性推断基准测试。

数据集来源： 该数据集可在HuggingFace上获取，具体链接为HuggingFace。

数据集内容

生成流程： 数据集通过创建多样化的合成个人资料，并使用这些资料作为大型语言模型（LLMs）的种子来生成Reddit帖子。模型根据个人特征生成评论，并通过概率方式模拟真实行为，如选择参与或忽略讨论，以及选择回复的评论。

数据集结构：

数据集文件： data/synthpai.jsonl 包含7823条评论。
合成个人资料： data/profiles/user_bot_profiles_300.json 和 data/profiles/user_bot_gen_online_profiles_300.json 分别包含300个合成个人资料。
生成内容： data/thread/generated_threads 包含生成的讨论线程，格式包括HTML、JSON和TXT。

数据集使用

安装与配置：

使用conda创建和管理环境。
需要配置OpenAI、Azure、HuggingFace、Anthropic和TogetherAI的API密钥。

数据集加载：

可通过HuggingFace或本地文件加载数据集。

数据集生成：

使用脚本scripts/generate_data.sh生成讨论线程。
使用脚本scripts/run_human_labelling.sh进行人工标注。
使用脚本scripts/generate_synthpai.sh生成SynthPAI数据集。

模型推断：

使用脚本scripts/run_inference_evals.sh进行属性推断实验。

引用信息

@misc{yukhymenko2024synthetic, title={A Synthetic Dataset for Personal Attribute Inference}, author={Hanna Yukhymenko and Robin Staab and Mark Vero and Martin Vechev}, year={2024}, eprint={2406.07217}, archivePrefix={arXiv}, primaryClass={cs.LG} }

搜集汇总

数据集介绍

构建方式

SynthPAI数据集的构建基于一个复杂的生成管道，旨在模拟真实世界的Reddit帖子。首先，通过创建多样化的合成个人资料，并将其作为大型语言模型（LLM）的种子，生成具有特定个人特征的评论。这些评论通过概率方式生成，以模拟真实行为，即个性化LLM代理选择是否参与或忽略某个话题，并选择回复特定的评论。生成后，这些评论由人工进行标注，以推断可识别的个人属性。整个过程通过LLM辅助完成，确保数据集的多样性和真实性。

使用方法

使用SynthPAI数据集进行个人属性推断研究时，用户可以通过HuggingFace平台直接加载数据集，或选择本地加载。数据集提供了详细的配置文件和脚本，用户可以根据需要调整生成和评估的参数。通过运行提供的脚本，用户可以生成合成评论、进行人工标注，并最终进行模型推断实验。实验结果可以存储在指定的文件夹中，便于后续分析和比较。

背景与挑战

背景概述

SynthPAI数据集由瑞士苏黎世联邦理工学院的安全与隐私研究所（SRI）创建，旨在补充其先前关于大型语言模型（LLMs）个人属性推断能力的研究。该数据集的核心研究问题是如何通过合成数据集来评估和提升模型对个人属性的推断能力。SynthPAI数据集的创建时间为2024年，主要研究人员包括Hanna Yukhymenko、Robin Staab、Mark Vero和Martin Vechev。该数据集的发布对隐私保护和模型推断能力的研究具有重要影响，特别是在理解和防止模型对个人隐私的潜在侵犯方面。

当前挑战

SynthPAI数据集面临的挑战主要包括两个方面：一是如何生成高质量的合成数据，以确保其能够真实反映个人属性的多样性和复杂性；二是如何在生成过程中保持数据的隐私性和安全性，避免合成数据被用于不当目的。此外，该数据集还需要解决模型推断结果的准确性和可靠性问题，确保推断结果不仅在技术上有效，而且在伦理和法律层面也是可接受的。

常用场景

经典使用场景

在自然语言处理领域，SynthPAI数据集的经典使用场景主要集中在个人属性推断任务上。该数据集通过模拟Reddit帖子生成，提供了丰富的合成个人资料和对话线程，使得研究者能够在受控环境中评估和优化模型对个人属性的推断能力。通过使用SynthPAI，研究者可以探索不同模型在推断用户性别、年龄、职业等属性时的表现，从而推动个性化推荐系统和隐私保护技术的发展。

解决学术问题

SynthPAI数据集解决了在自然语言处理领域中，如何有效评估和提升模型对个人属性推断能力的重要学术问题。传统的数据集往往难以覆盖多样化的个人属性，而SynthPAI通过合成数据填补了这一空白，为研究者提供了一个标准化的测试平台。这不仅有助于推动个性化推荐系统的发展，还为隐私保护技术的研究提供了新的视角和方法，具有深远的学术意义和影响。

实际应用

在实际应用中，SynthPAI数据集被广泛用于个性化推荐系统和隐私保护技术的开发与优化。通过使用该数据集，企业可以训练和验证其推荐算法，确保在尊重用户隐私的前提下提供精准的个性化服务。此外，隐私保护技术的研究者可以利用SynthPAI来测试和改进隐私保护模型，确保在数据分析过程中用户的敏感信息不被泄露。这些应用场景不仅提升了用户体验，还推动了相关技术的实际应用和产业化进程。

数据集最近研究