llm-wizard/dolly-15k-instruction-alpaca-format
收藏Hugging Face2023-04-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/llm-wizard/dolly-15k-instruction-alpaca-format
下载链接
链接失效反馈官方服务:
资源简介:
`databricks-dolly-15k`数据集包含超过15,000条记录,由Databricks员工生成,旨在使大型语言模型能够展示类似ChatGPT的交互性。数据集分为八个不同的指令类别,包括创意写作、封闭问答、开放问答、总结、信息提取、分类和头脑风暴。数据集的主要用途是用于指令微调大型语言模型,并提供了合成数据生成的机会。数据集的语言为美式英语,已知限制包括Wikipedia的偏见和事实错误,以及注释者的非母语英语背景。数据集使用CC BY-SA 3.0许可证。
提供机构:
llm-wizard
原始信息汇总
数据集概述
数据集名称
- 名称: Databricks Dolly 15k (Alpaca format, citations removed)
- 别名: databricks-dolly-15k
数据集特征
- 特征名称: instruction, category, input, output
- 数据类型: 均为字符串类型
数据集大小
- 下载大小: 7801648字节
- 数据集大小: 12271354字节
- 示例数量: 15015
- 分割: 训练集
语言
- 主要语言: 英语
许可
- 许可证: CC BY-3.0
数据集类别
- 大小类别: 10K<n<100K
数据集来源
- 数据生成: 由Databricks员工生成
- 参考文本: 部分数据参考自Wikipedia
数据集用途
- 主要用途: 用于指令微调大型语言模型,以及作为合成数据生成的资源
数据集限制
- 已知限制: 可能包含Wikipedia的偏见、事实错误和主题焦点;部分标注者可能非英语母语者;标注者的背景可能反映Databricks员工的构成
标注指南
- 标注任务: 包括创意写作、封闭式问答、开放式问答、摘要、信息提取、分类、头脑风暴等八种不同指令类别
- 标注指南: 提供了每种任务的简要描述和示例,以鼓励高任务完成率
个人或敏感数据
- 数据内容: 包含公开信息,如部分Wikipedia内容,无个人标识或敏感信息



