ramachetan22/transformed_JSON_databricks-dolly-15k.jsonl
收藏Transformed Databricks-Dolly-15k Dataset
概述
Transformed Databricks-Dolly-15k 数据集是基于 Databricks 员工创建的原始开源数据集的修改版本,旨在促进大型语言模型(LLMs)的指令遵循能力。该版本特别适应了以 JSON 格式包含响应,增强了其在需要结构化输出的任务中的实用性。
修改内容
原始数据集的主要变换涉及将每个记录的 response 字段转换为带有键 "answer" 的 JSON 对象,使其直接可用于偏好 JSON 格式输出的 LLMs 的微调。
支持的任务
- 训练具有结构化 JSON 输出的 LLMs
- 具有 JSON 响应的合成数据生成
- 结构化数据应用的数据增强
语言
英语
版本
- 变换后的数据集版本:1.0
- 基于原始数据集版本:1.0
所有者
Databricks, Inc.
数据集概览
该数据集包含超过 15,000 条记录,每个条目现在都包含一个封装在 JSON 对象中的响应。这些修改旨在支持能够生成结构化输出的 LLMs 的开发,促进从合成数据生成到数据增强的广泛应用。
预期用途
这个变换后的数据集适用于与原始数据集相同的广泛应用范围,并额外提供了结构化响应,适用于需要或受益于 JSON 格式输出的任务。
来源
- 人工生成数据: 由 Databricks 员工创建。
- 维基百科: 用于某些需要参考文本的类别。
标注指南
原始数据集的标注指南仍然相关,增加了以 JSON 格式结构化响应的步骤。
个人或敏感数据
该数据集中不包含个人或敏感数据。
已知限制
原始数据集的限制,包括维基百科中固有的潜在偏见和事实错误,适用于这个变换后的版本。
引用
请按以下方式引用原始数据集,并在必要时注明变换:
bibtex @online{DatabricksBlog2023DollyV2, author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, title = {Free Dolly: Introducing the Worlds First Truly Open Instruction-Tuned LLM}, year = {2023}, url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, urldate = {2023-06-30} }
许可证/归属
这个变换后的数据集基于 Databricks(https://www.databricks.com)开发的工作,其使用受 Creative Commons Attribution-ShareAlike 3.0 Unported License 约束,与原始数据集的许可条款一致。




