five

botp/irefly-train-1.1M

收藏
Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/irefly-train-1.1M
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集应用于项目Firefly(流萤):中文对话式大语言模型,训练后得到的模型为firefly-1b4。数据集包含23个常见的中文任务,每个任务由人工书写多种指令模板,确保数据的高质量与丰富度,数据总量为115万。每条数据包含任务类型、输入和目标输出。数据分布和token长度分布均有图示展示。

本数据集应用于项目Firefly(流萤):中文对话式大语言模型,训练后得到的模型为firefly-1b4。数据集包含23个常见的中文任务,每个任务由人工书写多种指令模板,确保数据的高质量与丰富度,数据总量为115万。每条数据包含任务类型、输入和目标输出。数据分布和token长度分布均有图示展示。
提供机构:
botp
原始信息汇总

数据集概述

数据集应用

本数据集应用于项目:Firefly(流萤): 中文对话式大语言模型,训练后得到的模型为firefly-1b4

数据集内容

  • 数据集规模:包含23个常见的中文数据集,总数据量为115万条。
  • 数据质量与丰富度:每个任务由人工书写若干种指令模板,确保数据的高质量与丰富度。
  • 数据分布:数据分布详情见图task_distribution

数据格式

每条数据包含以下三个主要字段:

  • kind (任务类型)
  • input (输入)
  • target (目标输出)

示例: json { "kind": "ClassicalChinese", "input": "将下面句子翻译成现代文: 石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。", "target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。" }

数据集特征

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作