ticoAg/firefly-train-1.1M
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/firefly-train-1.1M
下载链接
链接失效反馈官方服务:
资源简介:
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万。每条数据的格式包含任务类型、输入、目标输出,格式为JSON。数据集的token长度分布显示,绝大部分数据的长度都小于600。
We have collected 23 common Chinese datasets. For each task, multiple manually crafted instruction templates are developed to guarantee high quality and data richness, with a total dataset size of 1.15 million samples. Each data sample is formatted in JSON structure, containing three core fields: task type, input, and target output. The token length distribution of the dataset reveals that the vast majority of samples have a token length of fewer than 600.
提供机构:
ticoAg
原始信息汇总
数据集概述
数据来源
- 数据集来源于 YeungNLP/firefly-train-1.1M。
数据内容
- 收集了23个常见的中文数据集。
- 每个任务由人工书写若干种指令模板,保证数据的高质量与丰富度。
- 数据总量为115万条。
数据格式
- 每条数据包含任务类型、输入、目标输出。
- 示例数据格式: json [ { "instruction": "ClassicalChinese", "input": "将下面句子翻译成现代文: 石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。", "output": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。", "history": "" } ]
数据分布
- 数据分布情况如下图所示:

数据长度分布
- 训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:




