five

distily/synth_gpt2_ted_seq_100K

收藏
Hugging Face2024-08-26 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/distily/synth_gpt2_ted_seq_100K
下载链接
链接失效反馈
官方服务:
资源简介:
--- source_datasets: - Original - Synthetic library_name: Distily tags: - Distily dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 134847740 num_examples: 100000 download_size: 37812716 dataset_size: 134847740 configs: - config_name: default data_files: - split: train path: data/train-* --- # Distillation dataset created with [Distily](https://github.com/lapp0/distily). - **Method**: Generated sequences randomly with temperature config `ExponentialDecayArguments(start_t=100.0, end_t=0.5, N=1024, scale_factor=20)` - **Model URI**: `gpt2` - **Number of Samples**: 100000 - **Maximum Sequence Length**: 1024 tokens

源数据集类型: - 原始数据集 - 合成数据集 依赖库:Distily 数据集标签: - Distily 数据集详情: 特征项: - 名称:text 数据类型:字符串 数据分割: - 分割集名称:训练集(train) 字节大小:134847740 样本数:100000 下载大小:37812716 数据集总大小:134847740 配置项: - 配置名称:default 数据文件: - 对应分割集:训练集(train) 文件路径:data/train-* --- # 由[Distily](https://github.com/lapp0/distily)构建的蒸馏数据集。 - **生成方法**:采用温度参数配置为`ExponentialDecayArguments(start_t=100.0, end_t=0.5, N=1024, scale_factor=20)`的随机序列生成方案 - **模型统一资源标识符(Model URI)**:`gpt2` - **样本总数**:100000 - **最大序列长度**:1024个Token
提供机构:
distily
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作