darklight03/StackMIAsub

Name: darklight03/StackMIAsub
Creator: darklight03
Published: 2024-05-21 02:22:39
License: 暂无描述

Hugging Face2024-05-21 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/darklight03/StackMIAsub

下载链接

链接失效反馈

官方服务：

资源简介：

**StakcMIAsub**数据集是一个用于成员推理攻击（MIA）主题的基准数据集。该数据集基于广泛用于预训练的Stack Exchange语料库构建。数据格式为jsonlines，每个条目包含一个代码片段和一个标签，标签1表示成员，标签0表示非成员。该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的黑盒和白盒模型，包括OpenAI的text-davinci系列、LLaMA、LLaMA2、Pythia、GPT-Neo、GPT-J、OPT、StableLM和Falcon等模型。

提供机构：

darklight03

原始信息汇总

数据集概述

StakcMIAsub 数据集是一个用于会员推理攻击（MIA）基准的数据集。该数据集基于 Stack Exchange 语料库构建，广泛用于预训练。详细描述请参阅即将发布的论文。

数据格式

StakcMIAsub 数据集以 jsonlines 文件格式存储，具体格式如下： json {"snippet": "SNIPPET1", "label": 1 or 0} {"snippet": "SNIPPET2", "label": 1 or 0} ...

label 1 表示会员，label 0 表示非会员。

适用性

该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的白盒和黑盒模型，包括：

黑盒OpenAI模型：
- text-davinci-001
- text-davinci-002
- ...
白盒模型：
- LLaMA 和 LLaMA2
- Pythia
- GPT-Neo
- GPT-J
- OPT
- StableLM
- Falcon
- ...

搜集汇总

数据集介绍

背景与挑战

背景概述

StackMIAsub是一个基于Stack Exchange语料库构建的文本数据集，专门用于成员推理攻击（MIA）的基准测试。数据集以jsonlines格式组织，包含8,267个文本片段和对应的二元标签（1表示成员，0表示非成员），适用于多种黑盒和白盒语言模型的评估。相关研究论文为《Data Contamination Calibration for Black-box LLMs》（arXiv:2405.11930），发布于2024年。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集