Cmarti24/downsampled_upsampled
收藏Hugging Face2023-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cmarti24/downsampled_upsampled
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: inputs
struct:
- name: text
dtype: string
- name: prediction
dtype: 'null'
- name: prediction_agent
dtype: 'null'
- name: annotation
sequence: string
- name: annotation_agent
dtype: string
- name: vectors
dtype: 'null'
- name: multi_label
dtype: bool
- name: explanation
dtype: 'null'
- name: id
dtype: string
- name: metadata
struct:
- name: split
dtype: string
- name: status
dtype: string
- name: event_timestamp
dtype: timestamp[us]
- name: metrics
struct:
- name: text_length
dtype: int64
splits:
- name: train
num_bytes: 15655201.915976798
num_examples: 37289
- name: test
num_bytes: 6709792.084023202
num_examples: 15982
download_size: 12515554
dataset_size: 22364994.0
---
# Dataset Card for "downsampled_upsampled"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:text(文本),数据类型:字符串(string)
- 字段名:inputs(输入),为结构体,包含子字段:
- 子字段名:text(文本),数据类型:字符串(string)
- 字段名:prediction(预测结果),数据类型:空类型(null)
- 字段名:prediction_agent(预测智能体),数据类型:空类型(null)
- 字段名:annotation(标注信息),数据类型:字符串序列
- 字段名:annotation_agent(标注智能体),数据类型:字符串(string)
- 字段名:vectors(向量数据),数据类型:空类型(null)
- 字段名:multi_label(多标签),数据类型:布尔型(bool)
- 字段名:explanation(解释信息),数据类型:空类型(null)
- 字段名:id(样本ID),数据类型:字符串(string)
- 字段名:metadata(元数据),为结构体,包含子字段:
- 子字段名:split(数据划分),数据类型:字符串(string)
- 字段名:status(状态),数据类型:字符串(string)
- 字段名:event_timestamp(事件时间戳),数据类型:微秒级时间戳(timestamp[us])
- 字段名:metrics(评估指标),为结构体,包含子字段:
- 子字段名:text_length(文本长度),数据类型:64位整型(int64)
数据集划分:
- 划分名称:train(训练集),字节占用量:15655201.915976798,样本数量:37289
- 划分名称:test(测试集),字节占用量:6709792.084023202,样本数量:15982
下载总大小:12515554
数据集总存储大小:22364994.0
---
# downsampled_upsampled 数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Cmarti24
原始信息汇总
数据集概述
数据集信息
- 特征列表:
text: 类型为字符串。inputs: 结构体,包含一个名为text的字符串字段。prediction: 类型为空。prediction_agent: 类型为空。annotation: 字符串序列。annotation_agent: 类型为字符串。vectors: 类型为空。multi_label: 布尔类型。explanation: 类型为空。id: 类型为字符串。metadata: 结构体,包含一个名为split的字符串字段。status: 类型为字符串。event_timestamp: 时间戳类型,精度为微秒。metrics: 结构体,包含一个名为text_length的整数字段,类型为 int64。
数据分割
- 训练集:
- 字节数: 15655201.915976798
- 样本数: 37289
- 测试集:
- 字节数: 6709792.084023202
- 样本数: 15982
数据集大小
- 下载大小: 12515554 字节
- 数据集大小: 22364994.0 字节



