five

ticoAg/firefly-train-1.1M

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/firefly-train-1.1M
下载链接
链接失效反馈
官方服务:
资源简介:
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万。每条数据的格式包含任务类型、输入、目标输出,格式为JSON。数据集的token长度分布显示,绝大部分数据的长度都小于600。

We have collected 23 common Chinese datasets. For each task, multiple manually crafted instruction templates are developed to guarantee high quality and data richness, with a total dataset size of 1.15 million samples. Each data sample is formatted in JSON structure, containing three core fields: task type, input, and target output. The token length distribution of the dataset reveals that the vast majority of samples have a token length of fewer than 600.
提供机构:
ticoAg
原始信息汇总

数据集概述

数据来源

  • 数据集来源于 YeungNLP/firefly-train-1.1M。

数据内容

  • 收集了23个常见的中文数据集。
  • 每个任务由人工书写若干种指令模板,保证数据的高质量与丰富度。
  • 数据总量为115万条。

数据格式

  • 每条数据包含任务类型、输入、目标输出。
  • 示例数据格式: json [ { "instruction": "ClassicalChinese", "input": "将下面句子翻译成现代文: 石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。", "output": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。", "history": "" } ]

数据分布

  • 数据分布情况如下图所示: task_distribution

数据长度分布

  • 训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600: len_distribution.png
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作