sablo/dolly_curated
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sablo/dolly_curated
下载链接
链接失效反馈官方服务:
资源简介:
Dolly 15k Curated数据集是一个经过过滤和整理的高质量数据集,适用于监督微调(SFT)。该数据集基于两个现有数据集整理而来,特别是从https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-multilingual(仅英文部分)和https://huggingface.co/datasets/databricks/databricks-dolly-15k整理而来。数据集被格式化为适合Hugging Face聊天模板的格式,并去除了许多基于指令文本的重复项,以确保数据集的多样性和非重复性。数据集的特征包括messages和category,其中messages是一个包含content和role的列表。数据集被分为训练集和测试集,分别包含13952和735个样本。数据集的许可证为CC BY-SA 3.0,可用于商业用途。
Dolly 15k Curated数据集是一个经过过滤和整理的高质量数据集,适用于监督微调(SFT)。该数据集基于两个现有数据集整理而来,特别是从https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-multilingual(仅英文部分)和https://huggingface.co/datasets/databricks/databricks-dolly-15k整理而来。数据集被格式化为适合Hugging Face聊天模板的格式,并去除了许多基于指令文本的重复项,以确保数据集的多样性和非重复性。数据集的特征包括messages和category,其中messages是一个包含content和role的列表。数据集被分为训练集和测试集,分别包含13952和735个样本。数据集的许可证为CC BY-SA 3.0,可用于商业用途。
提供机构:
sablo
原始信息汇总
Dolly 15k Curated 数据集概述
数据集描述
Dolly 15k Curated 是一个经过筛选和精心整理的数据集版本,源自 https://huggingface.co/datasets/databricks/databricks-dolly-15k,保存为 HF Chat 格式。该数据集适用于监督微调(SFT)。
- 创建者: dctanner 和 Sablo AI 团队
- 许可证: CC BY-SA 3.0
数据集结构
数据集采用 Hugging Face Chat Templates 常用的输入格式进行结构化。在适当的情况下,上下文字段文本已附加到指令中,采用 OpenAI 风格的 Text: """...""" 格式。
json [ {"role": "user", "content": "Hello, how are you?"}, {"role": "assistant", "content": "Im doing great. How can I help you today?"} ]
数据集创建
源数据
- 源数据集: https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-multilingual 和 https://huggingface.co/datasets/databricks/databricks-dolly-15k
数据收集和处理
我们从 https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-multilingual(仅限英文部分)开始,这是 https://huggingface.co/datasets/databricks/databricks-dolly-15k 的手动精选版本。
除了格式化为 HF Chat 风格外,我们还基于指令文本删除了许多重复项,确保数据集的多样性和非重复性。
许可证
- 许可证: CC BY-SA 3.0
该数据集可用于商业用途。数据集中某些类别的材料来自以下来源,均在 CC BY-SA 3.0 许可证下授权:
- Wikipedia(多个页面) - https://www.wikipedia.org/ - 版权所有 © Wikipedia 编辑和贡献者。
- Databricks(https://www.databricks.com) - 版权所有 © Databricks
联系信息
由 dctanner 和 Sablo AI 团队创建



