argilla/alpaca_data_cleaned
收藏Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/alpaca_data_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: 'null'
- name: inputs
struct:
- name: _instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
- name: prediction
dtype: 'null'
- name: prediction_agent
dtype: 'null'
- name: annotation
dtype: string
- name: annotation_agent
dtype: string
- name: vectors
struct:
- name: input
sequence: float64
- name: instruction
sequence: float64
- name: output
sequence: float64
- name: multi_label
dtype: bool
- name: explanation
dtype: 'null'
- name: id
dtype: string
- name: metadata
dtype: 'null'
- name: status
dtype: string
- name: event_timestamp
dtype: timestamp[us]
- name: metrics
struct:
- name: text_length
dtype: int64
splits:
- name: train
num_bytes: 975104502
num_examples: 51713
download_size: 679574648
dataset_size: 975104502
---
# Dataset Card for "alpaca_data_cleaned"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:text,数据类型:空值
- 字段名:inputs,为结构体,包含如下子字段:
- 子字段名:_instruction,数据类型:字符串
- 子字段名:input,数据类型:字符串
- 子字段名:output,数据类型:字符串
- 字段名:prediction,数据类型:空值
- 字段名:prediction_agent,数据类型:空值(该字段记录预测智能体(AI Agent)的相关信息)
- 字段名:annotation,数据类型:字符串
- 字段名:annotation_agent,数据类型:字符串(该字段记录标注智能体(AI Agent)的相关信息)
- 字段名:vectors,为结构体,包含如下子字段:
- 子字段名:input,为双精度浮点数(float64)序列
- 子字段名:instruction,为双精度浮点数(float64)序列
- 子字段名:output,为双精度浮点数(float64)序列
- 字段名:multi_label,数据类型:布尔型
- 字段名:explanation,数据类型:空值
- 字段名:id,数据类型:字符串
- 字段名:metadata,数据类型:空值
- 字段名:status,数据类型:字符串
- 字段名:event_timestamp,数据类型:微秒级时间戳(timestamp[us])
- 字段名:metrics,为结构体,包含如下子字段:
- 子字段名:text_length,数据类型:64位整数(int64)
数据集划分:
- 划分集名称:训练集(train),占用字节数:975104502,样本总量:51713
下载大小:679574648
数据集总大小:975104502
# "alpaca_data_cleaned"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
argilla
原始信息汇总
数据集概述
数据集名称
- 名称:alpaca_data_cleaned
数据集特征
- text:数据类型为
null。 - inputs:结构化数据,包含以下字段:
- _instruction:数据类型为
string。 - input:数据类型为
string。 - output:数据类型为
string。
- _instruction:数据类型为
- prediction:数据类型为
null。 - prediction_agent:数据类型为
null。 - annotation:数据类型为
string。 - annotation_agent:数据类型为
string。 - vectors:结构化数据,包含以下字段:
- input:序列类型为
float64。 - instruction:序列类型为
float64。 - output:序列类型为
float64。
- input:序列类型为
- multi_label:数据类型为
bool。 - explanation:数据类型为
null。 - id:数据类型为
string。 - metadata:数据类型为
null。 - status:数据类型为
string。 - event_timestamp:数据类型为
timestamp[us]。 - metrics:结构化数据,包含以下字段:
- text_length:数据类型为
int64。
- text_length:数据类型为
数据集分割
- train:
- num_bytes:975104502
- num_examples:51713
数据集大小
- download_size:679574648
- dataset_size:975104502



