five

unlearning-cleanslate/eval-simnpo_gemma-3-12b-pt_20260416_171305-corpus_sweep_post_eval

收藏
Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-simnpo_gemma-3-12b-pt_20260416_171305-corpus_sweep_post_eval
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text_length_chars dtype: int64 - name: num_windows dtype: int64 - name: memorized_windows dtype: int64 - name: memorized_fraction dtype: float64 - name: coverage dtype: float64 - name: max_p_z dtype: float64 - name: mean_p_z dtype: float64 - name: median_p_z dtype: float64 - name: min_p_z dtype: float64 - name: std_p_z dtype: float64 - name: best_window_idx dtype: int64 - name: best_window_p_z dtype: float64 - name: best_window_seed dtype: string - name: best_window_target dtype: string - name: best_window_start_char dtype: int64 - name: best_window_end_char dtype: int64 - name: eval_model dtype: string - name: content_id dtype: string - name: content_title dtype: string - name: content_creators dtype: string - name: content_year dtype: int64 splits: - name: train num_bytes: 2432364 num_examples: 4663 download_size: 1201554 dataset_size: 2432364 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称:字符级文本长度(text_length_chars),数据类型:int64 - 名称:窗口数量(num_windows),数据类型:int64 - 名称:已记忆窗口数(memorized_windows),数据类型:int64 - 名称:记忆窗口占比(memorized_fraction),数据类型:float64 - 名称:覆盖度(coverage),数据类型:float64 - 名称:p_z最大值(max_p_z),数据类型:float64 - 名称:p_z均值(mean_p_z),数据类型:float64 - 名称:p_z中位数(median_p_z),数据类型:float64 - 名称:p_z最小值(min_p_z),数据类型:float64 - 名称:p_z标准差(std_p_z),数据类型:float64 - 名称:最优窗口索引(best_window_idx),数据类型:int64 - 名称:最优窗口p_z值(best_window_p_z),数据类型:float64 - 名称:最优窗口种子(best_window_seed),数据类型:string - 名称:最优窗口目标文本(best_window_target),数据类型:string - 名称:最优窗口起始字符位置(best_window_start_char),数据类型:int64 - 名称:最优窗口结束字符位置(best_window_end_char),数据类型:int64 - 名称:评估模型(eval_model),数据类型:string - 名称:内容ID(content_id),数据类型:string - 名称:内容标题(content_title),数据类型:string - 名称:内容创作者(content_creators),数据类型:string - 名称:内容发布年份(content_year),数据类型:int64 数据集划分: - 划分名称:训练集(train),字节占用量:2432364,样本总数:4663 下载总大小:1201554 数据集实际占用大小:2432364 配置项: - 配置名称:默认配置(default),数据文件: - 划分集:训练集(train),文件路径:data/train-*
提供机构:
unlearning-cleanslate
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作