botp/irefly-train-1.1M
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/irefly-train-1.1M
下载链接
链接失效反馈官方服务:
资源简介:
本数据集应用于项目Firefly(流萤):中文对话式大语言模型,训练后得到的模型为firefly-1b4。数据集包含23个常见的中文任务,每个任务由人工书写多种指令模板,确保数据的高质量与丰富度,数据总量为115万。每条数据包含任务类型、输入和目标输出。数据分布和token长度分布均有图示展示。
本数据集应用于项目Firefly(流萤):中文对话式大语言模型,训练后得到的模型为firefly-1b4。数据集包含23个常见的中文任务,每个任务由人工书写多种指令模板,确保数据的高质量与丰富度,数据总量为115万。每条数据包含任务类型、输入和目标输出。数据分布和token长度分布均有图示展示。
提供机构:
botp
原始信息汇总
数据集概述
数据集应用
本数据集应用于项目:Firefly(流萤): 中文对话式大语言模型,训练后得到的模型为firefly-1b4。
数据集内容
- 数据集规模:包含23个常见的中文数据集,总数据量为115万条。
- 数据质量与丰富度:每个任务由人工书写若干种指令模板,确保数据的高质量与丰富度。
- 数据分布:数据分布详情见图task_distribution。
数据格式
每条数据包含以下三个主要字段:
- kind (任务类型)
- input (输入)
- target (目标输出)
示例: json { "kind": "ClassicalChinese", "input": "将下面句子翻译成现代文: 石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。", "target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。" }
数据集特征
- Token长度分布:绝大部分数据的长度小于600,详情见图len_distribution.png。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



