imperial-cpg/copyright-traps-extra-non-members
收藏Hugging Face2024-10-07 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/imperial-cpg/copyright-traps-extra-non-members
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: perplexity_bucket
dtype: int64
- name: text
dtype: string
- name: label
dtype: int64
splits:
- name: seq_len_25
num_bytes: 813824
num_examples: 7425
- name: seq_len_50
num_bytes: 1518773
num_examples: 7500
- name: seq_len_100
num_bytes: 2931380
num_examples: 7500
download_size: 3748263
dataset_size: 5263977
configs:
- config_name: default
data_files:
- split: seq_len_25
path: data/seq_len_25-*
- split: seq_len_50
path: data/seq_len_50-*
- split: seq_len_100
path: data/seq_len_100-*
---
数据集信息:
特征项:
- 名称:困惑度分桶(perplexity bucket),数据类型:64位整数
- 名称:文本(text),数据类型:字符串
- 名称:标签(label),数据类型:64位整数
数据集划分:
- 划分名称:seq_len_25,对应序列长度为25,占用存储空间:813824 字节,样本总数:7425
- 划分名称:seq_len_50,对应序列长度为50,占用存储空间:1518773 字节,样本总数:7500
- 划分名称:seq_len_100,对应序列长度为100,占用存储空间:2931380 字节,样本总数:7500
整体下载大小:3748263 字节,数据集总存储规模:5263977 字节
数据集配置:
- 配置名称:默认(default),关联数据文件如下:
- 针对拆分seq_len_25:数据路径为 data/seq_len_25-*
- 针对拆分seq_len_50:数据路径为 data/seq_len_50-*
- 针对拆分seq_len_100:数据路径为 data/seq_len_100-*
提供机构:
imperial-cpg



