chanind/openwebtext-gemma
收藏Hugging Face2024-06-10 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chanind/openwebtext-gemma
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用Gemma分词器对OpenWebTextCorpus进行预分词处理的版本,旨在优化使用Gemma模型时的性能。它基于Skylion007/openwebtext数据集,并遵循相同的许可协议。数据集创建时使用了SAELens工具,并设置了特定的参数,如上下文大小、是否打乱顺序、起始批次标记等。
该数据集是使用Gemma分词器对OpenWebTextCorpus进行预分词处理的版本,旨在优化使用Gemma模型时的性能。它基于Skylion007/openwebtext数据集,并遵循相同的许可协议。数据集创建时使用了SAELens工具,并设置了特定的参数,如上下文大小、是否打乱顺序、起始批次标记等。
提供机构:
chanind
原始信息汇总
OpenWebTextCorpus tokenized for Gemma
数据集概述
- 数据集名称: OpenWebTextCorpus tokenized for Gemma
- 数据集类型: 预处理数据集
- 原始数据集: Skylion007/openwebtext
- 预处理工具: gemma tokenizer
- 适用模型: Gemma模型(gemma-2b, gemma-2b-it, gemma-7b, gemma-7b-it)
- 创建工具: SAELens
数据集配置
- 配置名称: default
- 数据文件路径: data/train-*
数据集特征
- 特征名称: input_ids
- 特征类型: int32
数据集分割
- 分割名称: train
- 样本数量: 1073116
- 字节数: 35168157552.0
数据集大小
- 下载大小: 18303136476
- 数据集大小: 35168157552.0
预处理设置
- context_size: 8192
- shuffled: true
- begin_batch_token: "bos"
- begin_sequence_token: null
- sequence_separator_token: "bos"
- sae_lens_version: "3.3.0"



