MemForg
收藏Hugging Face2025-08-31 更新2025-09-01 收录
下载链接:
https://huggingface.co/datasets/RedKiKi/MemForg
下载链接
链接失效反馈官方服务:
资源简介:
MIA数据集是专门为成员推断攻击研究设计的,包含两个部分:target_data和prefix_data。target_data部分提供1500个样本用于基本的成员推断研究,而prefix_data部分提供120个样本用于ReCaLL和Con-ReCaLL攻击研究。数据来源于Pile_CC、Wikipedia_en和PubMed_Abstracts,每个数据源的样本量均为500。prefix_data中的成员和非成员样本各占一半。
创建时间:
2025-08-19
原始信息汇总
数据集概述
基本信息
- 数据集名称: MIA Dataset
- 主要用途: 成员推理攻击(Membership Inference Attack, MIA)研究
- 许可证: MIT License
- 语言: 英文(en)
- 任务类别: 文本分类(text-classification)
- 标签: 成员推理攻击、隐私、机器学习安全
- 数据规模: 1K到10K之间
数据结构
数据划分
- target_data: 1500个样本,用于基础成员推理
- prefix_data: 120个样本,用于ReCaLL和Con-ReCaLL攻击
字段说明
| 字段名 | 类型 | 描述 | 可用范围 |
|---|---|---|---|
| text | 字符串 | 文本内容(核心数据) | 所有划分 |
| source | 字符串 | 数据来源(原始数据集名称) | 所有划分 |
| is_member | 字符串 | 成员属性 | 仅prefix_data |
数据来源
target_data来源
- Pile_CC: 500个样本
- Wikipedia_en: 500个样本
- PubMed_Abstracts: 500个样本
prefix_data来源
- PubMed Abstracts: 40个样本
- Pile-CC: 40个样本
- Wikipedia (en): 40个样本
成员分布(prefix_data)
- 成员样本: 60个
- 非成员样本: 60个
使用方式
加载数据集
python from datasets import load_dataset
加载完整数据集
dataset = load_dataset("RedKiKi/MemForg")
加载特定划分
target_data = load_dataset("RedKiKi/MemForg", split="target_data") prefix_data = load_dataset("RedKiKi/MemForg", split="prefix_data")
基础MIA使用
python
使用target_data进行基础成员推理
target_data = load_dataset("RedKiKi/MemForg", split="target_data")
ReCaLL攻击使用
python
获取ReCaLL攻击的非成员前缀
prefix_data = load_dataset("RedKiKi/MemForg", split="prefix_data") nonmember_prefixes = [ sample[text] for sample in prefix_data if sample[is_member] == non_member ]
搜集汇总
数据集介绍

构建方式
在机器学习安全研究领域,MemForg数据集通过精心筛选多个权威文本源构建而成。目标数据部分从Pile_CC、Wikipedia_en和PubMed_Abstracts三大来源各选取500个样本,确保数据多样性和代表性;前缀数据则从相同来源选取120个样本,并精确标注成员与非成员属性,形成60:60的平衡分布。所有文本数据均经过标准化处理,保持原始语义完整性,为成员推理攻击研究提供高质量基准。
特点
该数据集最显著的特征在于其专门针对成员推理攻击研究的结构化设计。目标数据包含1500个未标注样本,覆盖学术、百科和网络文本多元领域;前缀数据则提供120个带有成员标签的样本,支持监督学习需求。数据字段包含文本内容、来源标识和成员属性三元组,既保持数据溯源性,又满足不同攻击场景的实验要求。这种精心设计的结构使数据集兼具学术严谨性和实践灵活性。
使用方法
研究人员可通过Hugging Face数据集库直接加载MemForg数据集,按需调用目标数据或前缀数据分割。进行基础成员推理攻击时,使用target_data分割训练和测试模型;实施ReCaLL等高级攻击时,则从prefix_data中提取非成员前缀文本作为关键输入。数据集支持标准Python接口操作,兼容主流机器学习框架,其MIT许可证确保学术和商业使用的开放性。
背景与挑战
背景概述
MemForg数据集诞生于2023年,由专注于机器学习安全研究的团队RedKiKi构建,旨在应对隐私保护领域的关键挑战。该数据集聚焦于成员推理攻击(Membership Inference Attack, MIA)这一核心研究问题,通过整合来自Pile_CC、Wikipedia_en和PubMed_Abstracts等多源文本数据,为评估模型隐私泄露风险提供了标准化基准。其在隐私保护机器学习社区引发了广泛关注,推动了对抗性隐私攻击与防御机制的研究进展。
当前挑战
成员推理攻击领域面临模型过拟合检测与隐私边界模糊化的双重挑战,MemForg需解决攻击者如何从模型输出中推断特定数据点是否参与训练的核心问题。数据集构建过程中,研究人员需要精确平衡成员与非成员样本的分布,确保数据来源的多样性与代表性,同时维护文本质量与隐私属性的准确标注,这些因素共同构成了数据收集与标注过程中的显著难点。
常用场景
经典使用场景
在机器学习安全研究领域,MemForg数据集为成员推理攻击提供了标准化评估基准。该数据集通过精心构建的目标数据和前缀数据划分,支持研究者系统性地训练和测试攻击模型,特别适用于评估语言模型在文本分类任务中的隐私泄露风险。其平衡的成员与非成员样本分布确保了实验结果的统计显著性,为隐私保护机制的有效性验证提供了可靠数据支撑。
实际应用
该数据集在实际应用中主要服务于隐私合规检测和风险评估场景。企业及研究机构可利用MemForg评估部署模型的隐私安全边界,识别潜在的数据泄露风险。在医疗、金融等敏感信息处理领域,该数据集帮助开发者在模型发布前进行隐私渗透测试,确保符合日益严格的数据保护法规要求,为负责任的人工智能发展提供技术保障。
衍生相关工作
基于MemForg数据集衍生出多项重要研究成果,特别是在ReCaLL和Con-ReCaLL攻击方法的优化方面。研究者利用其前缀数据机制开发出更高效的成员推理技术,推动了动态攻击策略的发展。这些工作不仅深化了对模型隐私漏洞的理解,还促进了防御技术的创新,形成了一系列具有影响力的隐私保护算法和检测框架。
以上内容由遇见数据集搜集并总结生成



