ticoAg/firefly-train-1.1M

Name: ticoAg/firefly-train-1.1M
Creator: ticoAg
Published: 2023-08-23 12:49:12
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ticoAg/firefly-train-1.1M

下载链接

链接失效反馈

官方服务：

资源简介：

我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万。每条数据的格式包含任务类型、输入、目标输出，格式为JSON。数据集的token长度分布显示，绝大部分数据的长度都小于600。

We have collected 23 common Chinese datasets. For each task, multiple manually crafted instruction templates are developed to guarantee high quality and data richness, with a total dataset size of 1.15 million samples. Each data sample is formatted in JSON structure, containing three core fields: task type, input, and target output. The token length distribution of the dataset reveals that the vast majority of samples have a token length of fewer than 600.

提供机构：

ticoAg

原始信息汇总

数据集概述

数据来源

数据集来源于 YeungNLP/firefly-train-1.1M。

数据内容

收集了23个常见的中文数据集。
每个任务由人工书写若干种指令模板，保证数据的高质量与丰富度。
数据总量为115万条。

数据格式

每条数据包含任务类型、输入、目标输出。
示例数据格式： json [ { "instruction": "ClassicalChinese", "input": "将下面句子翻译成现代文：石中央又生一树，高百余尺，条干偃阴为五色，翠叶如盘，花径尺余，色深碧，蕊深红，异香成烟，著物霏霏。", "output": "大石的中央长着一棵树，一百多尺高，枝干是彩色的，树叶有盘子那样大，花的直径有一尺宽，花瓣深蓝色，花中飘出奇异的香气笼罩着周围，如烟似雾。", "history": "" } ]

数据分布

数据分布情况如下图所示：

数据长度分布

训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：

5,000+

优质数据集

54 个

任务类型

进入经典数据集