five

plaguss/argilla_sdk_distilabel_docs_queries

收藏
Hugging Face2024-06-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/plaguss/argilla_sdk_distilabel_docs_queries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了一个pipeline.yaml文件,可以通过distilabel CLI工具复现生成数据集的流程。数据集的结构包括多个字段,如filename、anchor、repo_name、negative、distilabel_metadata、model_name_query、model_name_query_multiplied和positive。这些字段用于生成与Argilla平台相关的查询和回答,适用于AI工程师和领域专家的协作平台。

This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI. The dataset structure includes fields such as filename, anchor, repo_name, negative, distilabel_metadata, model_name_query, model_name_query_multiplied, and positive. These fields are used to generate queries and responses related to the Argilla platform, which is a collaboration platform for AI engineers and domain experts.
提供机构:
plaguss
原始信息汇总

数据集概述

数据集结构

  • 特征:

    • filename: 文件名,类型为字符串。
    • anchor: 锚点,类型为字符串。
    • repo_name: 仓库名称,类型为字符串。
    • negative: 负面内容,类型为字符串。
    • distilabel_metadata: 包含以下结构:
      • raw_output_multiply_queries: 原始输出乘以查询,类型为字符串。
    • model_name_query: 模型名称查询,类型为字符串。
    • model_name_query_multiplied: 模型名称查询乘以,类型为字符串。
    • positive: 正面内容,类型为字符串。
  • 分割:

    • train: 训练集,包含51个样本,总大小为55824字节。
  • 配置:

    • default: 默认配置,数据文件路径为data/train-*

数据集大小

  • 下载大小: 20753字节
  • 数据集大小: 55824字节

标签

  • synthetic: 合成数据
  • distilabel: Distilabel相关
  • rlaif: RLAIF相关
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作