unlearning-cleanslate/eval-simnpo_gemma-3-12b-pt_20260416_171305-corpus_sweep_post_eval
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-simnpo_gemma-3-12b-pt_20260416_171305-corpus_sweep_post_eval
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text_length_chars
dtype: int64
- name: num_windows
dtype: int64
- name: memorized_windows
dtype: int64
- name: memorized_fraction
dtype: float64
- name: coverage
dtype: float64
- name: max_p_z
dtype: float64
- name: mean_p_z
dtype: float64
- name: median_p_z
dtype: float64
- name: min_p_z
dtype: float64
- name: std_p_z
dtype: float64
- name: best_window_idx
dtype: int64
- name: best_window_p_z
dtype: float64
- name: best_window_seed
dtype: string
- name: best_window_target
dtype: string
- name: best_window_start_char
dtype: int64
- name: best_window_end_char
dtype: int64
- name: eval_model
dtype: string
- name: content_id
dtype: string
- name: content_title
dtype: string
- name: content_creators
dtype: string
- name: content_year
dtype: int64
splits:
- name: train
num_bytes: 2432364
num_examples: 4663
download_size: 1201554
dataset_size: 2432364
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称:字符级文本长度(text_length_chars),数据类型:int64
- 名称:窗口数量(num_windows),数据类型:int64
- 名称:已记忆窗口数(memorized_windows),数据类型:int64
- 名称:记忆窗口占比(memorized_fraction),数据类型:float64
- 名称:覆盖度(coverage),数据类型:float64
- 名称:p_z最大值(max_p_z),数据类型:float64
- 名称:p_z均值(mean_p_z),数据类型:float64
- 名称:p_z中位数(median_p_z),数据类型:float64
- 名称:p_z最小值(min_p_z),数据类型:float64
- 名称:p_z标准差(std_p_z),数据类型:float64
- 名称:最优窗口索引(best_window_idx),数据类型:int64
- 名称:最优窗口p_z值(best_window_p_z),数据类型:float64
- 名称:最优窗口种子(best_window_seed),数据类型:string
- 名称:最优窗口目标文本(best_window_target),数据类型:string
- 名称:最优窗口起始字符位置(best_window_start_char),数据类型:int64
- 名称:最优窗口结束字符位置(best_window_end_char),数据类型:int64
- 名称:评估模型(eval_model),数据类型:string
- 名称:内容ID(content_id),数据类型:string
- 名称:内容标题(content_title),数据类型:string
- 名称:内容创作者(content_creators),数据类型:string
- 名称:内容发布年份(content_year),数据类型:int64
数据集划分:
- 划分名称:训练集(train),字节占用量:2432364,样本总数:4663
下载总大小:1201554
数据集实际占用大小:2432364
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分集:训练集(train),文件路径:data/train-*
提供机构:
unlearning-cleanslate



