five

davanstrien/data-centric-ml-sft

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/data-centric-ml-sft
下载链接
链接失效反馈
官方服务:
资源简介:
Data Centric Machine Learning Domain SFT数据集是一个展示如何使用`distilabel`轻松创建领域特定微调数据集的示例。该数据集专注于数据中心的机器学习领域,包含用户与AI助手之间的对话。其目的是展示创建领域特定微调数据集的过程,并为机器学习社区提供资源。数据集包含51个实例,每个实例代表一个对话,包含ID和messages两个字段。数据生成过程包括使用LLama 3 70B生成初始对话,并通过Argilla进行人工修正。
提供机构:
davanstrien
原始信息汇总

数据集概述

基本信息

  • 名称: Data Centric Domain SFT dataset
  • 语言: 英语(en)
  • 标签: sft, synthetic, distilabel
  • 大小分类: 小于1000条记录(n<1K)
  • 许可证: CC0-1.0

数据集结构

  • 特征:
    • id (字符串): 对话的唯一标识符。
    • messages (列表): 包含用户和AI助理之间的消息交换。
      • content (字符串): 消息内容。
      • role (字符串): 消息发送者的角色。
  • 分割:
    • train (训练集): 包含51个实例,总大小为152326.4150943396字节。

数据集大小

  • 下载大小: 80250字节
  • 数据集总大小: 152326.4150943396字节

任务类别

  • 问答
  • 文本生成

数据生成过程

  1. 合成数据生成: 使用LLama 3 70B根据与数据中心机器学习相关的提示生成初始对话。
  2. 人工精炼: 使用Argilla工具对生成的对话进行手动审查和修正。

使用与限制

  • 该数据集旨在作为创建特定领域微调数据集的示例和起点。
  • 由于数据集较小,可能不涵盖领域的所有方面。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作