emozilla/Long-Data-Collections-Fine-Tune
收藏Hugging Face2023-10-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/emozilla/Long-Data-Collections-Fine-Tune
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是togethercomputer/Long-Data-Collections数据集的fine-tune分割的Paraquet版本。数据集包含三个特征:text、prompt和completion,均为字符串类型。数据集的分割为train,包含98557个样本,总大小为12859272204字节,下载大小为7118608463字节。字符级别的统计信息显示,总字符数为6419025428,平均字符长度为65130.08135393731。
提供机构:
emozilla
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 数据类型为stringprompt: 数据类型为stringcompletion: 数据类型为string
数据划分
- 训练集:
- 名称:
train - 字节数: 12859272204
- 样本数: 98557
- 名称:
数据集大小
- 下载大小: 7118608463 字节
- 数据集大小: 12859272204 字节
统计信息
- 总长度: 6419025428 字符
- 平均长度: 65130.08135393731 字符



