darklight03/StackMIAsub
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/darklight03/StackMIAsub
下载链接
链接失效反馈官方服务:
资源简介:
**StakcMIAsub**数据集是一个用于成员推理攻击(MIA)主题的基准数据集。该数据集基于广泛用于预训练的Stack Exchange语料库构建。数据格式为jsonlines,每个条目包含一个代码片段和一个标签,标签1表示成员,标签0表示非成员。该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的黑盒和白盒模型,包括OpenAI的text-davinci系列、LLaMA、LLaMA2、Pythia、GPT-Neo、GPT-J、OPT、StableLM和Falcon等模型。
**StakcMIAsub**数据集是一个用于成员推理攻击(MIA)主题的基准数据集。该数据集基于广泛用于预训练的Stack Exchange语料库构建。数据格式为jsonlines,每个条目包含一个代码片段和一个标签,标签1表示成员,标签0表示非成员。该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的黑盒和白盒模型,包括OpenAI的text-davinci系列、LLaMA、LLaMA2、Pythia、GPT-Neo、GPT-J、OPT、StableLM和Falcon等模型。
提供机构:
darklight03
原始信息汇总
数据集概述
StakcMIAsub 数据集是一个用于会员推理攻击(MIA)基准的数据集。该数据集基于 Stack Exchange 语料库构建,广泛用于预训练。详细描述请参阅即将发布的论文。
数据格式
StakcMIAsub 数据集以 jsonlines 文件格式存储,具体格式如下:
json
{"snippet": "SNIPPET1", "label": 1 or 0}
{"snippet": "SNIPPET2", "label": 1 or 0}
...
- label 1 表示会员,label 0 表示非会员。
适用性
该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的白盒和黑盒模型,包括:
- 黑盒OpenAI模型:
- text-davinci-001
- text-davinci-002
- ...
- 白盒模型:
- LLaMA 和 LLaMA2
- Pythia
- GPT-Neo
- GPT-J
- OPT
- StableLM
- Falcon
- ...
搜集汇总
数据集介绍

背景与挑战
背景概述
StackMIAsub是一个基于Stack Exchange语料库构建的文本数据集,专门用于成员推理攻击(MIA)的基准测试。数据集以jsonlines格式组织,包含8,267个文本片段和对应的二元标签(1表示成员,0表示非成员),适用于多种黑盒和白盒语言模型的评估。相关研究论文为《Data Contamination Calibration for Black-box LLMs》(arXiv:2405.11930),发布于2024年。
以上内容由遇见数据集搜集并总结生成



