five

chanind/openwebtext-gemma

收藏
Hugging Face2024-06-10 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chanind/openwebtext-gemma
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是使用Gemma分词器对OpenWebTextCorpus进行预分词处理的版本,旨在优化使用Gemma模型时的性能。它基于Skylion007/openwebtext数据集,并遵循相同的许可协议。数据集创建时使用了SAELens工具,并设置了特定的参数,如上下文大小、是否打乱顺序、起始批次标记等。

该数据集是使用Gemma分词器对OpenWebTextCorpus进行预分词处理的版本,旨在优化使用Gemma模型时的性能。它基于Skylion007/openwebtext数据集,并遵循相同的许可协议。数据集创建时使用了SAELens工具,并设置了特定的参数,如上下文大小、是否打乱顺序、起始批次标记等。
提供机构:
chanind
原始信息汇总

OpenWebTextCorpus tokenized for Gemma

数据集概述

  • 数据集名称: OpenWebTextCorpus tokenized for Gemma
  • 数据集类型: 预处理数据集
  • 原始数据集: Skylion007/openwebtext
  • 预处理工具: gemma tokenizer
  • 适用模型: Gemma模型(gemma-2b, gemma-2b-it, gemma-7b, gemma-7b-it)
  • 创建工具: SAELens

数据集配置

  • 配置名称: default
  • 数据文件路径: data/train-*

数据集特征

  • 特征名称: input_ids
  • 特征类型: int32

数据集分割

  • 分割名称: train
  • 样本数量: 1073116
  • 字节数: 35168157552.0

数据集大小

  • 下载大小: 18303136476
  • 数据集大小: 35168157552.0

预处理设置

  • context_size: 8192
  • shuffled: true
  • begin_batch_token: "bos"
  • begin_sequence_token: null
  • sequence_separator_token: "bos"
  • sae_lens_version: "3.3.0"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作