five

silk-road/chinese-dolly-15k

收藏
Hugging Face2023-05-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/silk-road/chinese-dolly-15k
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese-Dolly-15k是骆驼团队翻译的Dolly instruction数据集。原来的数据集databricks/databricks-dolly-15k是由数千名Databricks员工根据InstructGPT论文中概述的几种行为类别生成的遵循指示记录的开源数据集。这几个行为类别包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和摘要。最后49条数据因为翻译长度超过限制,没有翻译成功,建议删除或者手动翻译一下。在知识共享署名-相同方式共享3.0(CC BY-SA 3.0)许可下,此数据集可用于任何学术或商业用途。

Chinese-Dolly-15k是骆驼团队翻译的Dolly instruction数据集。原来的数据集databricks/databricks-dolly-15k是由数千名Databricks员工根据InstructGPT论文中概述的几种行为类别生成的遵循指示记录的开源数据集。这几个行为类别包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和摘要。最后49条数据因为翻译长度超过限制,没有翻译成功,建议删除或者手动翻译一下。在知识共享署名-相同方式共享3.0(CC BY-SA 3.0)许可下,此数据集可用于任何学术或商业用途。
提供机构:
silk-road
原始信息汇总

数据集概述

名称: Chinese-Dolly-15k

来源: 骆驼团队翻译自databricks/databricks-dolly-15k数据集

原始数据集描述: 由数千名Databricks员工生成的开源数据集,遵循InstructGPT论文中的行为类别,包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和摘要。

语言: 中文、英文

任务类别:

  • 问答
  • 摘要
  • 文本生成

大小: 10K<n<100K

许可证: 知识共享署名-相同方式共享3.0(CC BY-SA 3.0)

特殊说明: 最后49条数据因翻译长度超过限制未翻译成功,建议删除或手动翻译。

相关数据集更新计划

  • [x] CoQA的中文翻译
  • [x] 增广的开放QA数据
  • [x] WizardLM的中文翻译
  • [x] MMC4的中文翻译
  • [ ] Coco Caption的中文翻译
  • [ ] CNewSum的Embedding数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作