distily/synth_gpt2_ted_seq_100K
收藏Hugging Face2024-08-26 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/distily/synth_gpt2_ted_seq_100K
下载链接
链接失效反馈官方服务:
资源简介:
---
source_datasets:
- Original
- Synthetic
library_name: Distily
tags:
- Distily
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 134847740
num_examples: 100000
download_size: 37812716
dataset_size: 134847740
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Distillation dataset created with [Distily](https://github.com/lapp0/distily).
- **Method**: Generated sequences randomly with temperature config `ExponentialDecayArguments(start_t=100.0, end_t=0.5, N=1024, scale_factor=20)`
- **Model URI**: `gpt2`
- **Number of Samples**: 100000
- **Maximum Sequence Length**: 1024 tokens
源数据集类型:
- 原始数据集
- 合成数据集
依赖库:Distily
数据集标签:
- Distily
数据集详情:
特征项:
- 名称:text
数据类型:字符串
数据分割:
- 分割集名称:训练集(train)
字节大小:134847740
样本数:100000
下载大小:37812716
数据集总大小:134847740
配置项:
- 配置名称:default
数据文件:
- 对应分割集:训练集(train)
文件路径:data/train-*
---
# 由[Distily](https://github.com/lapp0/distily)构建的蒸馏数据集。
- **生成方法**:采用温度参数配置为`ExponentialDecayArguments(start_t=100.0, end_t=0.5, N=1024, scale_factor=20)`的随机序列生成方案
- **模型统一资源标识符(Model URI)**:`gpt2`
- **样本总数**:100000
- **最大序列长度**:1024个Token
提供机构:
distily



