five

llm-wizard/dolly-15k-instruction-alpaca-format

收藏
Hugging Face2023-04-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/llm-wizard/dolly-15k-instruction-alpaca-format
下载链接
链接失效反馈
官方服务:
资源简介:
`databricks-dolly-15k`数据集包含超过15,000条记录,由Databricks员工生成,旨在使大型语言模型能够展示类似ChatGPT的交互性。数据集分为八个不同的指令类别,包括创意写作、封闭问答、开放问答、总结、信息提取、分类和头脑风暴。数据集的主要用途是用于指令微调大型语言模型,并提供了合成数据生成的机会。数据集的语言为美式英语,已知限制包括Wikipedia的偏见和事实错误,以及注释者的非母语英语背景。数据集使用CC BY-SA 3.0许可证。
提供机构:
llm-wizard
原始信息汇总

数据集概述

数据集名称

  • 名称: Databricks Dolly 15k (Alpaca format, citations removed)
  • 别名: databricks-dolly-15k

数据集特征

  • 特征名称: instruction, category, input, output
  • 数据类型: 均为字符串类型

数据集大小

  • 下载大小: 7801648字节
  • 数据集大小: 12271354字节
  • 示例数量: 15015
  • 分割: 训练集

语言

  • 主要语言: 英语

许可

  • 许可证: CC BY-3.0

数据集类别

  • 大小类别: 10K<n<100K

数据集来源

  • 数据生成: 由Databricks员工生成
  • 参考文本: 部分数据参考自Wikipedia

数据集用途

  • 主要用途: 用于指令微调大型语言模型,以及作为合成数据生成的资源

数据集限制

  • 已知限制: 可能包含Wikipedia的偏见、事实错误和主题焦点;部分标注者可能非英语母语者;标注者的背景可能反映Databricks员工的构成

标注指南

  • 标注任务: 包括创意写作、封闭式问答、开放式问答、摘要、信息提取、分类、头脑风暴等八种不同指令类别
  • 标注指南: 提供了每种任务的简要描述和示例,以鼓励高任务完成率

个人或敏感数据

  • 数据内容: 包含公开信息,如部分Wikipedia内容,无个人标识或敏感信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作