LeonGuertler/TinyStories_stlm_training_progress
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LeonGuertler/TinyStories_stlm_training_progress
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cdla-sharing-1.0
dataset_info:
features:
- name: first_n_words
dtype: string
- name: actual_continuation
dtype: string
- name: byte_shuffle
dtype: string
- name: word_shuffle
dtype: string
- name: ngram_shuffle_3
dtype: string
- name: ngram_shuffle_5
dtype: string
- name: ngram_shuffle_7
dtype: string
- name: ngram_shuffle_12
dtype: string
- name: random_byte_deletion
dtype: string
- name: random_word_deletion
dtype: string
- name: random_byte_insertion
dtype: string
- name: random_word_insertion
dtype: string
- name: random_byte_substitution
dtype: string
- name: random_word_substitution
dtype: string
- name: parse_tree_shuffle
dtype: string
splits:
- name: train
num_bytes: 3855584.0
num_examples: 1000
download_size: 2472525
dataset_size: 3855584.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
LeonGuertler
原始信息汇总
数据集概述
数据集特征
- first_n_words: 数据类型为字符串
- actual_continuation: 数据类型为字符串
- byte_shuffle: 数据类型为字符串
- word_shuffle: 数据类型为字符串
- ngram_shuffle_3: 数据类型为字符串
- ngram_shuffle_5: 数据类型为字符串
- ngram_shuffle_7: 数据类型为字符串
- ngram_shuffle_12: 数据类型为字符串
- random_byte_deletion: 数据类型为字符串
- random_word_deletion: 数据类型为字符串
- random_byte_insertion: 数据类型为字符串
- random_word_insertion: 数据类型为字符串
- random_byte_substitution: 数据类型为字符串
- random_word_substitution: 数据类型为字符串
- parse_tree_shuffle: 数据类型为字符串
数据集分割
- train: 包含1000个样本,总字节数为3855584.0
数据集大小
- 下载大小: 2472525字节
- 数据集大小: 3855584.0字节
配置信息
- 默认配置: 训练数据文件路径为
data/train-*



