cygu/sampling-distill-train-data-kgw-k0-gamma0.25-delta1

Name: cygu/sampling-distill-train-data-kgw-k0-gamma0.25-delta1
Creator: cygu
Published: 2024-05-22 23:58:51
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/cygu/sampling-distill-train-data-kgw-k0-gamma0.25-delta1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于采样水印蒸馏的训练数据，使用了KGW水印策略（k=0, γ=0.25, δ=1）。数据基于Llama 2 7B模型生成，包含640,000个水印样本，每个样本长度为256个token。每个样本使用OpenWebText中的50-token前缀作为提示（提示不包含在样本中）。

提供机构：

cygu

原始信息汇总

数据集卡片 "sampling-distill-train-data-kgw-k0-gamma0.25-delta1"

该数据集包含640,000个样本，每个样本长度为256个token。这些样本是使用基于解码的水印技术，通过Llama 2 7B模型生成的。每个样本的前缀是从OpenWebText数据集中提取的50个token，但这些前缀不包含在样本中。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集