davanstrien/data-centric-ml-sft
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/data-centric-ml-sft
下载链接
链接失效反馈官方服务:
资源简介:
Data Centric Machine Learning Domain SFT数据集是一个展示如何使用`distilabel`轻松创建领域特定微调数据集的示例。该数据集专注于数据中心的机器学习领域,包含用户与AI助手之间的对话。其目的是展示创建领域特定微调数据集的过程,并为机器学习社区提供资源。数据集包含51个实例,每个实例代表一个对话,包含ID和messages两个字段。数据生成过程包括使用LLama 3 70B生成初始对话,并通过Argilla进行人工修正。
提供机构:
davanstrien
原始信息汇总
数据集概述
基本信息
- 名称: Data Centric Domain SFT dataset
- 语言: 英语(en)
- 标签: sft, synthetic, distilabel
- 大小分类: 小于1000条记录(n<1K)
- 许可证: CC0-1.0
数据集结构
- 特征:
id(字符串): 对话的唯一标识符。messages(列表): 包含用户和AI助理之间的消息交换。content(字符串): 消息内容。role(字符串): 消息发送者的角色。
- 分割:
train(训练集): 包含51个实例,总大小为152326.4150943396字节。
数据集大小
- 下载大小: 80250字节
- 数据集总大小: 152326.4150943396字节
任务类别
- 问答
- 文本生成
数据生成过程
- 合成数据生成: 使用LLama 3 70B根据与数据中心机器学习相关的提示生成初始对话。
- 人工精炼: 使用Argilla工具对生成的对话进行手动审查和修正。
使用与限制
- 该数据集旨在作为创建特定领域微调数据集的示例和起点。
- 由于数据集较小,可能不涵盖领域的所有方面。



