crumb/flan-ul2-tinystories

Name: crumb/flan-ul2-tinystories
Creator: crumb
Published: 2023-07-02 04:47:47
License: 暂无描述

Hugging Face2023-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/crumb/flan-ul2-tinystories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含大约25万个示例，这些示例是通过Flan-UL2 (20b)模型生成的，生成提示为使用一年级学生的词汇写一个短篇故事。生成过程中使用了随机调整的top_k和temperature值，以确保数据集的多样性和趣味性。生成设置包括max_length为128，batch_size为32。生成过程中每1024个示例设置一个检查点，以缓解因内存使用导致的程序变慢问题。该数据集在RTXA6000上以bf16精度运行，生成成本约为6美元。

提供机构：

crumb

原始信息汇总

数据集概述

数据来源

数据集由Flan-UL2（20亿参数）生成，使用提示“Write a short story using the vocabulary of a first-grader.”

数据规模

约25万条示例

生成设置

运行环境：RTXA6000显卡，使用bf16精度
生成参数：
- top_k：随机在40到128之间
- temperature：随机在0.6到0.95之间
- max_length：128
- batch_size：32

数据处理

每生成1024条示例进行一次检查点保存，以减少内存使用导致的程序缓慢
通过随机调整temperature和top_k值，生成多样性更高的数据集

成本

生成数据集的成本约为6美元

5,000+

优质数据集

54 个

任务类型

进入经典数据集