five

darklight03/StackMIAsub

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/darklight03/StackMIAsub
下载链接
链接失效反馈
官方服务:
资源简介:
**StakcMIAsub**数据集是一个用于成员推理攻击(MIA)主题的基准数据集。该数据集基于广泛用于预训练的Stack Exchange语料库构建。数据格式为jsonlines,每个条目包含一个代码片段和一个标签,标签1表示成员,标签0表示非成员。该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的黑盒和白盒模型,包括OpenAI的text-davinci系列、LLaMA、LLaMA2、Pythia、GPT-Neo、GPT-J、OPT、StableLM和Falcon等模型。

**StakcMIAsub**数据集是一个用于成员推理攻击(MIA)主题的基准数据集。该数据集基于广泛用于预训练的Stack Exchange语料库构建。数据格式为jsonlines,每个条目包含一个代码片段和一个标签,标签1表示成员,标签0表示非成员。该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的黑盒和白盒模型,包括OpenAI的text-davinci系列、LLaMA、LLaMA2、Pythia、GPT-Neo、GPT-J、OPT、StableLM和Falcon等模型。
提供机构:
darklight03
原始信息汇总

数据集概述

StakcMIAsub 数据集是一个用于会员推理攻击(MIA)基准的数据集。该数据集基于 Stack Exchange 语料库构建,广泛用于预训练。详细描述请参阅即将发布的论文。

数据格式

StakcMIAsub 数据集以 jsonlines 文件格式存储,具体格式如下: json {"snippet": "SNIPPET1", "label": 1 or 0} {"snippet": "SNIPPET2", "label": 1 or 0} ...

  • label 1 表示会员,label 0 表示非会员。

适用性

该数据集支持大多数在2024年5月之前发布并使用Stack Exchange语料库预训练的白盒和黑盒模型,包括:

  • 黑盒OpenAI模型
    • text-davinci-001
    • text-davinci-002
    • ...
  • 白盒模型
    • LLaMA 和 LLaMA2
    • Pythia
    • GPT-Neo
    • GPT-J
    • OPT
    • StableLM
    • Falcon
    • ...
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
StackMIAsub是一个基于Stack Exchange语料库构建的文本数据集,专门用于成员推理攻击(MIA)的基准测试。数据集以jsonlines格式组织,包含8,267个文本片段和对应的二元标签(1表示成员,0表示非成员),适用于多种黑盒和白盒语言模型的评估。相关研究论文为《Data Contamination Calibration for Black-box LLMs》(arXiv:2405.11930),发布于2024年。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作