voorhs/augmented
收藏Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/voorhs/augmented
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: source_dataset_name
dtype: string
- name: idx_within_source
dtype: int64
- name: id
dtype: int64
- name: pos
list:
- name: augmentation
dtype: string
- name: content
list:
- name: speaker
dtype: int64
- name: utterance
dtype: string
- name: orig
struct:
- name: augmentation
dtype: 'null'
- name: content
list:
- name: speaker
dtype: int64
- name: utterance
dtype: string
splits:
- name: trivial
num_bytes: 1247109585
num_examples: 434094
- name: advanced
num_bytes: 1673023917
num_examples: 434094
- name: crazy
num_bytes: 2739979462
num_examples: 434094
download_size: 1510867343
dataset_size: 5660112964
configs:
- config_name: default
data_files:
- split: trivial
path: data/trivial-*
- split: advanced
path: data/advanced-*
- split: crazy
path: data/crazy-*
---
dataset_info: 数据集信息(dataset_info)
features:
- 字段名: 源数据集名称(source_dataset_name)
数据类型: 字符串(string)
- 字段名: 源数据集内索引(idx_within_source)
数据类型: 64位整型(int64)
- 字段名: 样本编号(id)
数据类型: 64位整型(int64)
- 字段名: 位置信息(pos)
数据类型: 列表(list)
列表项:
- 字段名: 数据增强方式(augmentation)
数据类型: 字符串(string)
- 字段名: 内容(content)
数据类型: 列表(list)
列表项:
- 字段名: 说话人编号(speaker)
数据类型: 64位整型(int64)
- 字段名: 话语内容(utterance)
数据类型: 字符串(string)
- 字段名: 原始样本(orig)
数据类型: 结构体(struct)
结构体成员:
- 字段名: 数据增强方式(augmentation)
数据类型: 空值(null)
- 字段名: 内容(content)
数据类型: 列表(list)
列表项:
- 字段名: 说话人编号(speaker)
数据类型: 64位整型(int64)
- 字段名: 话语内容(utterance)
数据类型: 字符串(string)
splits:
- 划分名称: 基础划分(trivial)
字节数: 1247109585
样本数量: 434094
- 划分名称: 进阶划分(advanced)
字节数: 1673023917
样本数量: 434094
- 划分名称: 极端划分(crazy)
字节数: 2739979462
样本数量: 434094
下载大小: 1510867343
总数据集大小: 5660112964
configs:
- 配置名称: 默认配置(default)
数据文件:
- 对应划分: 基础划分(trivial)
路径: data/trivial-*
- 对应划分: 进阶划分(advanced)
路径: data/advanced-*
- 对应划分: 极端划分(crazy)
路径: data/crazy-*
提供机构:
voorhs
原始信息汇总
数据集概述
数据集信息
特征
- source_dataset_name: 数据类型为字符串。
- idx_within_source: 数据类型为整数64位。
- id: 数据类型为整数64位。
- pos: 包含以下子特征:
- augmentation: 数据类型为字符串。
- content: 包含以下子特征:
- speaker: 数据类型为整数64位。
- utterance: 数据类型为字符串。
- orig: 包含以下子特征:
- augmentation: 数据类型为空。
- content: 包含以下子特征:
- speaker: 数据类型为整数64位。
- utterance: 数据类型为字符串。
数据分割
- trivial: 字节数为1247109585,示例数为434094。
- advanced: 字节数为1673023917,示例数为434094。
- crazy: 字节数为2739979462,示例数为434094。
数据大小
- 下载大小: 1510867343字节。
- 数据集大小: 5660112964字节。
配置
- default: 包含以下数据文件:
- trivial: 路径为
data/trivial-*。 - advanced: 路径为
data/advanced-*。 - crazy: 路径为
data/crazy-*。
- trivial: 路径为



