erhwenkuo/firefly-train-chinese-zhtw
收藏数据集卡片 "firefly-train-chinese-zhtw"
数据集摘要
本数据集主要应用于项目:Firefly(流螢): 中文对话式大语言模型,经过训练后得到的模型 firefly-1b4。
Firefly(流螢): 中文对话式大语言模型 项目收集了 23 个常见的中文数据集,并且对于每种不同的 NLP 任务,由人工书写若干种指令模板来保证数据的高品质与丰富度。
数据量为 115 万。数据分布如下:

训练数据集的 token 长度分布如下,绝大部分数据的长度都小于 600:

原始数据来源:
数据下载清理
- 下载 chinese-poetry: 最全中文诗歌古典文集数据库 的 Repo
- 使用 OpenCC 来进行简繁转换
- 使用 Huggingface Datasets 来上传至 Huggingface Hub
数据集结构
json { "kind": "ClassicalChinese", "input": "將下面句子翻譯成現代文: 石中央又生一樹,高百餘尺,條幹偃陰為五色,翠葉如盤,花徑尺餘,色深碧,蕊深紅,異香成煙,著物霏霏。", "target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。" }
数据字段
kind: (string) 任务类别input: (string) 任务输入target: (string) 任务输入目标
如何使用
python from datasets import load_dataset
dataset = load_dataset("erhwenkuo/firefly-train-chinese-zhtw", split="train")
许可信息
数据来源未定义许可信息
引用
@misc{Firefly, author = {Jianxin Yang}, title = {Firefly(流萤): 中文对话式大语言模型}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/yangjianxin1/Firefly}}, }



