erhwenkuo/firefly-train-chinese-zhtw

Name: erhwenkuo/firefly-train-chinese-zhtw
Creator: erhwenkuo
Published: 2023-10-19 13:07:50
License: 暂无描述

Hugging Face2023-10-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/erhwenkuo/firefly-train-chinese-zhtw

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集主要用于训练中文对话式大语言模型Firefly，包含了115万条数据，涵盖了23个常见的中文数据集。每个数据样本包含三个字段：kind（任务类别）、input（任务输入）和target（任务目标）。数据集通过人工书写的指令模板来保证数据的高质量和丰富度，适用于文本生成任务。

This dataset is primarily used for the Firefly (Liuying): Chinese conversational large language model project, which collects 23 common Chinese datasets and ensures high quality and richness of data through manually written instruction templates. The dataset contains approximately 1.15 million entries, mainly for text generation tasks. The dataset has been processed for simplified-traditional conversion and uploaded to the Huggingface Hub. The dataset structure includes three fields: task category, task input, and task input target.

提供机构：

erhwenkuo

原始信息汇总

数据集卡片 "firefly-train-chinese-zhtw"

数据集摘要

本数据集主要应用于项目：Firefly（流螢）: 中文对话式大语言模型，经过训练后得到的模型 firefly-1b4。

Firefly（流螢）: 中文对话式大语言模型项目收集了 23 个常见的中文数据集，并且对于每种不同的 NLP 任务，由人工书写若干种指令模板来保证数据的高品质与丰富度。

数据量为 115 万。数据分布如下：

task_distribution

训练数据集的 token 长度分布如下，绝大部分数据的长度都小于 600：

原始数据来源：

数据下载清理

下载 chinese-poetry: 最全中文诗歌古典文集数据库的 Repo
使用 OpenCC 来进行简繁转换
使用 Huggingface Datasets 来上传至 Huggingface Hub

数据集结构

json { "kind": "ClassicalChinese", "input": "將下面句子翻譯成現代文：石中央又生一樹，高百餘尺，條幹偃陰為五色，翠葉如盤，花徑尺餘，色深碧，蕊深紅，異香成煙，著物霏霏。", "target": "大石的中央长着一棵树，一百多尺高，枝干是彩色的，树叶有盘子那样大，花的直径有一尺宽，花瓣深蓝色，花中飘出奇异的香气笼罩着周围，如烟似雾。" }

数据字段

kind: (string) 任务类别
input: (string) 任务输入
target: (string) 任务输入目标

如何使用

python from datasets import load_dataset

dataset = load_dataset("erhwenkuo/firefly-train-chinese-zhtw", split="train")

许可信息

数据来源未定义许可信息

引用

@misc{Firefly, author = {Jianxin Yang}, title = {Firefly(流萤): 中文对话式大语言模型}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/yangjianxin1/Firefly}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集