KenithZ/KenithZ-dolly-zh-51k
收藏Hugging Face2023-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KenithZ/KenithZ-dolly-zh-51k
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
pretty_name: KenithZ-dolly-zh-51k
task_categories:
- question-answering
- summarization
language:
- zh
- en
size_categories:
- 10K<n<100K
---
# Dolly中文训练集
基于[Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)的转换成的dolly数据集
## 需要做的事情
1. 将alpaca_data_zh_51k.json数据集转换为databricks-dolly-15k.jsonl数据集的格式
2. 转换后的数据集集需要手动补充category(正在进行)
3. 修正原作者从chatGPT爬取的语义不通或数据错误的指令数据(正在进行)
提供机构:
KenithZ
原始信息汇总
Dolly中文训练集概述
数据集基本信息
- 许可证: MIT
- 名称: KenithZ-dolly-zh-51k
- 任务类别:
- 问答
- 摘要生成
- 支持语言:
- 中文
- 英文
- 数据集大小: 10K<n<100K
数据集转换任务
- 转换目标: 将
alpaca_data_zh_51k.json转换为databricks-dolly-15k.jsonl格式。 - 补充工作: 手动补充数据集的类别信息(正在进行)。
- 数据修正: 修正从chatGPT爬取的语义不通或数据错误的指令数据(正在进行)。



