YeungNLP/firefly-train-1.1M|自然语言处理数据集|对话系统数据集

hugging_face2023-04-10 更新2024-03-04 收录

自然语言处理

对话系统

下载链接：

https://hf-mirror.com/datasets/YeungNLP/firefly-train-1.1M

下载链接

链接失效反馈

资源简介：

本数据集是为Firefly项目（中文对话式大语言模型）收集的，包含23个常见的中文数据集，总数据量达115万条。每条数据详细记录了任务类型、输入和目标输出，确保数据的高质量与丰富度。数据集的分布和token长度分布均通过图表清晰展示，大部分数据长度小于600。

提供机构：

YeungNLP

原始信息汇总

数据集概述

数据集应用

本数据集应用于项目：Firefly（流萤）: 中文对话式大语言模型，训练后得到的模型为firefly-1b4。

数据集内容

数据集规模：共收集了23个常见的中文数据集，总数据量为115万。
数据质量与丰富度：每个任务由人工书写若干种指令模板，确保数据的高质量与丰富度。
数据分布：数据分布详情请参考task_distribution。

数据格式

每条数据包含以下三个主要字段：

kind (任务类型)
input (输入)
target (目标输出)

示例： json { "kind": "ClassicalChinese", "input": "将下面句子翻译成现代文：石中央又生一树，高百余尺，条干偃阴为五色，翠叶如盘，花径尺余，色深碧，蕊深红，异香成烟，著物霏霏。", "target": "大石的中央长着一棵树，一百多尺高，枝干是彩色的，树叶有盘子那样大，花的直径有一尺宽，花瓣深蓝色，花中飘出奇异的香气笼罩着周围，如烟似雾。" }

数据集特征

token长度分布：绝大部分数据的长度都小于600，详情请参考len_distribution.png。

AI搜集汇总

数据集介绍

构建方式

在构建YeungNLP/firefly-train-1.1M数据集时，研究团队精心挑选了23个常见的中文数据集，并针对每个任务设计了多种人工书写的指令模板，以确保数据的高质量和多样性。数据总量达到115万条，涵盖了广泛的任务类型，如古典中文翻译、现代文生成等。每条数据均包含任务类型、输入文本和目标输出，形成了一个结构化的训练集，旨在为中文对话式大语言模型Firefly提供丰富的训练资源。

使用方法

YeungNLP/firefly-train-1.1M数据集适用于训练中文对话式大语言模型，如Firefly。使用时，开发者可以根据数据集提供的任务类型和结构化数据格式，进行模型的训练和微调。数据集的高质量和多样性使得模型能够更好地理解和生成中文文本，适用于多种自然语言处理任务，如文本翻译、生成和对话系统开发。

背景与挑战

背景概述

在自然语言处理领域，特别是中文对话式大语言模型的研究中，YeungNLP团队推出的Firefly-train-1.1M数据集扮演了重要角色。该数据集由YeungNLP团队于近期创建，旨在支持其Firefly项目，一个致力于开发高效中文对话式大语言模型的开源项目。通过整合23个常见的中文数据集，并由人工设计多种指令模板，该数据集确保了数据的高质量和多样性，总数据量达到115万条。此数据集不仅为模型训练提供了丰富的语料，还显著推动了中文自然语言处理技术的发展，尤其是在对话生成和文本翻译等任务上。

当前挑战

尽管Firefly-train-1.1M数据集在丰富性和质量上取得了显著成就，但其构建和应用过程中仍面临若干挑战。首先，数据集的多样性要求在不同任务类型间保持平衡，这需要精确的数据选择和处理策略。其次，人工设计指令模板的过程既耗时又需专业知识，确保模板的高效性和适用性是一大挑战。此外，数据集的token长度分布显示大部分数据长度小于600，这可能限制了模型处理长文本的能力。最后，如何确保数据集在不同应用场景下的通用性和适应性，也是未来研究的重要方向。

常用场景

经典使用场景

在自然语言处理领域，YeungNLP/firefly-train-1.1M数据集被广泛应用于中文对话式大语言模型的训练。该数据集通过整合23个常见的中文数据集，并由人工设计多种指令模板，确保了数据的高质量和多样性。其经典使用场景包括但不限于中文文本翻译、古典文学现代文转换等任务，为模型提供了丰富的训练样本，从而显著提升了模型的语言理解和生成能力。

解决学术问题

YeungNLP/firefly-train-1.1M数据集在学术研究中解决了中文自然语言处理领域中数据稀缺和多样性不足的问题。通过提供高质量、多样化的训练数据，该数据集有助于研究人员开发和优化中文对话式大语言模型，推动了中文自然语言处理技术的发展。其意义在于为学术界提供了一个标准化的数据集，促进了相关研究的深入和创新。

实际应用

在实际应用中，YeungNLP/firefly-train-1.1M数据集训练的模型被广泛应用于中文文本处理、智能客服、教育辅助等多个领域。例如，在智能客服系统中，该模型能够准确理解用户的中文查询并提供相应的解答；在教育领域，模型可以辅助学生进行古典文学的现代文转换，提升学习效率。这些应用场景展示了数据集在实际业务中的巨大潜力和价值。

数据集最近研究

最新研究方向

在自然语言处理领域，YeungNLP/firefly-train-1.1M数据集的最新研究方向主要集中在提升中文对话式大语言模型的性能和多样性。该数据集通过整合23个常见的中文数据集，并设计多种指令模板，确保了数据的高质量和丰富度，从而为模型训练提供了坚实的基础。研究者们正致力于优化模型结构，以更好地处理复杂的中文语境，同时探索如何在保持模型轻量化的同时提升其对话生成能力。此外，数据集的广泛应用也促进了跨领域合作，推动了中文自然语言处理技术的整体进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录