wikimia

Hugging Face2025-12-28 更新2025-12-29 收录

下载链接：

https://huggingface.co/datasets/S3IC/wikimia

下载链接

链接失效反馈

官方服务：

资源简介：

WikiMIA数据集是一个广泛使用的基准数据集，旨在评估成员推理攻击（MIA）方法，特别是用于检测文本是否在大型语言模型（LLM）的预训练过程中被看到。该数据集包含不同长度的文本（32、64、128、256），每个条目包含'input'和'label'字段，其中label=0表示预训练期间未看到的数据，label=1表示预训练期间看到的数据。数据集分为四个不同的长度类别，每个类别的行数和字节数也有所不同。该数据集常用于数据污染/预训练数据检测研究，如论文《Detecting Pretraining Data from Large Language Models》（arXiv:2310.16789）所述。

创建时间：

2025-12-27

原始信息汇总

WikiMIA 数据集概述

数据集基本信息

数据集名称: WikiMIA
托管地址: https://huggingface.co/datasets/S3IC/wikimia
原始来源: https://huggingface.co/datasets/swj0419/WikiMIA
许可协议: MIT License
主要语言: 英语 (en)
数据规模: 1K<n<10K
总下载大小: 465,221 字节
总数据集大小: 723,106 字节

数据集目的与用途

核心用途: 评估大型语言模型（LLMs）的成员推理攻击（MIA）方法。
具体目标: 检测一段文本是否在大型语言模型的预训练阶段被“见过”。
应用领域: 数据污染研究、预训练数据检测研究。
相关论文: “Detecting Pretraining Data from Large Language Models” (arXiv:2310.16789)。
相关代码库: https://github.com/swj0419/detect-pretrain-code。

数据结构与内容

数据格式: 每个样本为一个JSON对象，包含input（字符串）和label（int64）两个字段。
标签含义:
- label = 0: 表示该文本在预训练期间未被“见过”。
- label = 1: 表示该文本在预训练期间被“见过”。
文本长度: 提供32、64、128、256四种长度的文本样本。

数据划分与统计

数据集包含四个按文本长度划分的子集：

子集名称	样本数量	数据大小（字节）
`WikiMIA_length32`	776	162,091
`WikiMIA_length64`	542	221,018
`WikiMIA_length128`	250	205,118
`WikiMIA_length256`	82	134,879

数据文件

data/WikiMIA_length32*.parquet
data/WikiMIA_length64*.parquet
data/WikiMIA_length128*.parquet
data/WikiMIA_length256*.parquet

使用方法

python from datasets import load_dataset

LENGTH = 64 ds = load_dataset("S3IC/wikimia", split=f"WikiMIA_length{LENGTH}")

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估领域，WikiMIA数据集的构建遵循了严谨的学术范式。其核心方法是从维基百科语料中采样文本片段，并依据这些片段是否真实出现在特定LLM的预训练数据中，进行精确的二元标注。数据集按文本长度划分为四个独立子集，每个子集内的样本均经过严格筛选与验证，确保了成员推断攻击评估任务的数据纯净性与标签准确性，为相关研究提供了可靠的基准。

特点

WikiMIA数据集呈现出鲜明的结构性特征。其最显著的特点在于按输入文本的固定长度（32、64、128、256个token）进行分层组织，形成了四个规模递减但内部一致的评估子集。每个数据样本仅包含‘input’文本字段和‘label’二元标签，结构简洁而目的明确。这种设计使得研究者能够系统性地探究文本长度对成员推断攻击性能的影响，为模型隐私泄露风险的分析提供了多粒度的观测视角。

使用方法

使用该数据集进行实验时，研究者可通过Hugging Face的`datasets`库便捷加载。只需指定目标文本长度参数，即可载入对应的数据分片，例如`WikiMIA_length64`。加载后的数据集可直接用于训练或评估成员推断攻击分类器，其中标签‘0’代表预训练未见样本，‘1’代表已见样本。这种即插即用的接口设计，极大地简化了实验流程，使研究者能快速聚焦于核心算法与模型的比较分析。

背景与挑战

背景概述

WikiMIA数据集由研究人员于2023年提出，其核心研究问题聚焦于大型语言模型预训练数据的成员推理攻击评估。该数据集旨在为检测文本是否在模型预训练阶段被使用提供基准，相关论文《Detecting Pretraining Data from Large Language Models》系统阐述了预训练数据检测的方法与挑战。通过构建包含不同长度文本样本的数据集，WikiMIA推动了机器学习安全与隐私领域的发展，为评估模型记忆与数据污染问题提供了重要工具。

当前挑战

在成员推理攻击领域，WikiMIA旨在解决检测大型语言模型预训练数据泄露的挑战，这涉及区分模型是否记忆了特定文本片段。构建过程中的挑战包括确保数据样本的多样性与代表性，同时精确标注文本在预训练中的可见性状态。此外，生成不同长度文本的平衡子集以覆盖多种上下文场景，并保持数据质量与一致性，也是数据集构建的关键难点。

常用场景

经典使用场景

在大型语言模型（LLMs）的隐私与安全研究领域，WikiMIA数据集作为一项基准工具，被广泛用于评估成员推理攻击（MIA）方法的性能。该数据集通过提供不同文本长度（如32、64、128、256个字符）的样本，并标注其是否在模型预训练过程中被见过，为研究者构建了一个标准化的测试环境。经典应用场景包括在受控条件下，训练和验证攻击模型，以准确识别特定文本是否属于LLMs的预训练数据，从而推动模型透明度与数据泄露检测技术的发展。

实际应用

在实际应用中，WikiMIA数据集被用于测试和优化大型语言模型的隐私防护策略。例如，在模型部署前，组织可利用该数据集评估其LLMs对敏感或受版权保护数据的记忆风险，从而制定更有效的去识别化或数据过滤方案。此外，它还能辅助审计工具的开发，帮助监管机构或企业检测模型是否无意中包含了特定来源的文本，提升人工智能系统的合规性与可信度。

衍生相关工作

围绕WikiMIA数据集，已衍生出多项经典研究工作，其中最突出的是论文《Detecting Pretraining Data from Large Language Models》（arXiv:2310.16789）。该工作不仅引入了数据集本身，还提出了创新的检测方法，推动了成员推理攻击领域的算法进步。后续研究在此基础上扩展了攻击场景，例如针对不同模型架构或数据类型的适应性评估，进一步丰富了模型隐私与安全研究的学术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集