cygu/sampling-distill-train-data-kgw-k1-gamma0.25-delta1

Name: cygu/sampling-distill-train-data-kgw-k1-gamma0.25-delta1
Creator: cygu
Published: 2024-05-22 23:59:42
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/cygu/sampling-distill-train-data-kgw-k1-gamma0.25-delta1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于基于采样的水印蒸馏训练，使用了KGW水印策略（k=1, γ=0.25, δ=1），并在论文《On the Learnability of Watermarks for Language Models》中进行了讨论。数据集中的640,000个水印样本是通过Llama 2 7B模型生成的，每个样本长度为256个token，并使用OpenWebText中的50-token前缀作为提示（提示不包含在样本中）。

提供机构：

cygu

原始信息汇总

数据集概述

数据集名称

名称: sampling-distill-train-data-kgw-k1-gamma0.25-delta1

数据集特征

特征:
- text: 数据类型为字符串。

数据集拆分

拆分详情:
- train:
  - 示例数量: 640,000
  - 数据大小: 632,649,244字节

数据集大小

下载大小: 438,166,438字节
数据集总大小: 632,649,244字节

数据集生成细节

使用Llama 2 7B模型生成640,000个水印样本，每个样本256个令牌长。
每个样本前缀使用来自OpenWebText的50个令牌，但这些前缀不包含在样本中。

5,000+

优质数据集

54 个

任务类型

进入经典数据集