ninaxu/distilabel-example

Name: ninaxu/distilabel-example
Creator: ninaxu
Published: 2024-07-11 20:28:14
License: 暂无描述

Hugging Face2024-07-11 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/ninaxu/distilabel-example

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过distilabel工具创建的，包含一个pipeline.yaml文件，可用于重现生成该数据集的管道。数据集的结构包括instruction、completion、meta、generation、distilabel_metadata和model_name等字段。meta字段进一步包含category、completion、id、input、motivation_app、prompt、source和subcategory等子字段。数据集的一个示例展示了如何使用这些字段来解决一个数学问题。数据集可以通过Hugging Face的datasets库加载。

This dataset, generated using the distilabel tool, includes multiple features such as instruction, completion, and meta, each with specific data types. The meta feature is a structured data containing sub-features like category, completion, id, etc. The dataset is divided into a training set with 10 examples. It is primarily used for text generation and question answering tasks.

提供机构：

ninaxu

原始信息汇总

数据集概述

数据集结构

特征

instruction: 类型为字符串。
completion: 类型为字符串。
meta: 结构化数据，包含以下字段：
- category: 类型为字符串。
- completion: 类型为字符串。
- id: 类型为整数（int64）。
- input: 类型为空（null）。
- motivation_app: 类型为空（null）。
- prompt: 类型为字符串。
- source: 类型为字符串。
- subcategory: 类型为字符串。
generation: 类型为字符串。
distilabel_metadata: 结构化数据，包含以下字段：
- raw_output_text_generation_0: 类型为字符串。
model_name: 类型为字符串。

数据分割

train: 包含10个样本，总字节数为28183。

数据集大小

下载大小: 39228字节
数据集大小: 28183字节

配置

default: 包含训练数据文件，路径为data/train-*。

ninaxu/distilabel-example

数据集概述

数据集结构

特征

数据分割

数据集大小

配置

标签