five

ramachetan22/transformed_JSON_databricks-dolly-15k.jsonl

收藏
Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ramachetan22/transformed_JSON_databricks-dolly-15k.jsonl
下载链接
链接失效反馈
官方服务:
资源简介:
Transformed Databricks-Dolly-15k数据集是对原始开源数据集的修改版本,旨在增强大型语言模型(LLMs)的指令跟随能力。此版本特别将每个记录的响应字段转换为包含键answer的JSON对象,使其更适合需要结构化输出的任务。数据集包含超过15,000条记录,每条记录现在都包含一个封装在JSON对象中的响应。这些修改旨在支持开发能够生成结构化输出的LLMs,从而促进从合成数据生成到数据增强的广泛应用。数据集适用于与原始数据集相同的广泛应用,并增加了结构化响应的优势,适用于需要或受益于JSON格式输出的任务。数据来源包括Databricks员工创建的人工生成数据和用于某些类别的维基百科参考文本。数据集不包含个人或敏感数据,语言为美式英语。已知限制包括原始数据集中潜在的偏见和维基百科中固有的事实错误。

Transformed Databricks-Dolly-15k数据集是对原始开源数据集的修改版本,旨在增强大型语言模型(LLMs)的指令跟随能力。此版本特别将每个记录的响应字段转换为包含键answer的JSON对象,使其更适合需要结构化输出的任务。数据集包含超过15,000条记录,每条记录现在都包含一个封装在JSON对象中的响应。这些修改旨在支持开发能够生成结构化输出的LLMs,从而促进从合成数据生成到数据增强的广泛应用。数据集适用于与原始数据集相同的广泛应用,并增加了结构化响应的优势,适用于需要或受益于JSON格式输出的任务。数据来源包括Databricks员工创建的人工生成数据和用于某些类别的维基百科参考文本。数据集不包含个人或敏感数据,语言为美式英语。已知限制包括原始数据集中潜在的偏见和维基百科中固有的事实错误。
提供机构:
ramachetan22
原始信息汇总

Transformed Databricks-Dolly-15k Dataset

概述

Transformed Databricks-Dolly-15k 数据集是基于 Databricks 员工创建的原始开源数据集的修改版本,旨在促进大型语言模型(LLMs)的指令遵循能力。该版本特别适应了以 JSON 格式包含响应,增强了其在需要结构化输出的任务中的实用性。

修改内容

原始数据集的主要变换涉及将每个记录的 response 字段转换为带有键 "answer" 的 JSON 对象,使其直接可用于偏好 JSON 格式输出的 LLMs 的微调。

支持的任务

  • 训练具有结构化 JSON 输出的 LLMs
  • 具有 JSON 响应的合成数据生成
  • 结构化数据应用的数据增强

语言

英语

版本

  • 变换后的数据集版本:1.0
  • 基于原始数据集版本:1.0

所有者

Databricks, Inc.

数据集概览

该数据集包含超过 15,000 条记录,每个条目现在都包含一个封装在 JSON 对象中的响应。这些修改旨在支持能够生成结构化输出的 LLMs 的开发,促进从合成数据生成到数据增强的广泛应用。

预期用途

这个变换后的数据集适用于与原始数据集相同的广泛应用范围,并额外提供了结构化响应,适用于需要或受益于 JSON 格式输出的任务。

来源

  • 人工生成数据: 由 Databricks 员工创建。
  • 维基百科: 用于某些需要参考文本的类别。

标注指南

原始数据集的标注指南仍然相关,增加了以 JSON 格式结构化响应的步骤。

个人或敏感数据

该数据集中不包含个人或敏感数据。

已知限制

原始数据集的限制,包括维基百科中固有的潜在偏见和事实错误,适用于这个变换后的版本。

引用

请按以下方式引用原始数据集,并在必要时注明变换:

bibtex @online{DatabricksBlog2023DollyV2, author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, title = {Free Dolly: Introducing the Worlds First Truly Open Instruction-Tuned LLM}, year = {2023}, url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, urldate = {2023-06-30} }

许可证/归属

这个变换后的数据集基于 Databricks(https://www.databricks.com)开发的工作,其使用受 Creative Commons Attribution-ShareAlike 3.0 Unported License 约束,与原始数据集的许可条款一致。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作