five

voorhs/augmented

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/voorhs/augmented
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: source_dataset_name dtype: string - name: idx_within_source dtype: int64 - name: id dtype: int64 - name: pos list: - name: augmentation dtype: string - name: content list: - name: speaker dtype: int64 - name: utterance dtype: string - name: orig struct: - name: augmentation dtype: 'null' - name: content list: - name: speaker dtype: int64 - name: utterance dtype: string splits: - name: trivial num_bytes: 1247109585 num_examples: 434094 - name: advanced num_bytes: 1673023917 num_examples: 434094 - name: crazy num_bytes: 2739979462 num_examples: 434094 download_size: 1510867343 dataset_size: 5660112964 configs: - config_name: default data_files: - split: trivial path: data/trivial-* - split: advanced path: data/advanced-* - split: crazy path: data/crazy-* ---

dataset_info: 数据集信息(dataset_info) features: - 字段名: 源数据集名称(source_dataset_name) 数据类型: 字符串(string) - 字段名: 源数据集内索引(idx_within_source) 数据类型: 64位整型(int64) - 字段名: 样本编号(id) 数据类型: 64位整型(int64) - 字段名: 位置信息(pos) 数据类型: 列表(list) 列表项: - 字段名: 数据增强方式(augmentation) 数据类型: 字符串(string) - 字段名: 内容(content) 数据类型: 列表(list) 列表项: - 字段名: 说话人编号(speaker) 数据类型: 64位整型(int64) - 字段名: 话语内容(utterance) 数据类型: 字符串(string) - 字段名: 原始样本(orig) 数据类型: 结构体(struct) 结构体成员: - 字段名: 数据增强方式(augmentation) 数据类型: 空值(null) - 字段名: 内容(content) 数据类型: 列表(list) 列表项: - 字段名: 说话人编号(speaker) 数据类型: 64位整型(int64) - 字段名: 话语内容(utterance) 数据类型: 字符串(string) splits: - 划分名称: 基础划分(trivial) 字节数: 1247109585 样本数量: 434094 - 划分名称: 进阶划分(advanced) 字节数: 1673023917 样本数量: 434094 - 划分名称: 极端划分(crazy) 字节数: 2739979462 样本数量: 434094 下载大小: 1510867343 总数据集大小: 5660112964 configs: - 配置名称: 默认配置(default) 数据文件: - 对应划分: 基础划分(trivial) 路径: data/trivial-* - 对应划分: 进阶划分(advanced) 路径: data/advanced-* - 对应划分: 极端划分(crazy) 路径: data/crazy-*
提供机构:
voorhs
原始信息汇总

数据集概述

数据集信息

特征

  • source_dataset_name: 数据类型为字符串。
  • idx_within_source: 数据类型为整数64位。
  • id: 数据类型为整数64位。
  • pos: 包含以下子特征:
    • augmentation: 数据类型为字符串。
    • content: 包含以下子特征:
      • speaker: 数据类型为整数64位。
      • utterance: 数据类型为字符串。
  • orig: 包含以下子特征:
    • augmentation: 数据类型为空。
    • content: 包含以下子特征:
      • speaker: 数据类型为整数64位。
      • utterance: 数据类型为字符串。

数据分割

  • trivial: 字节数为1247109585,示例数为434094。
  • advanced: 字节数为1673023917,示例数为434094。
  • crazy: 字节数为2739979462,示例数为434094。

数据大小

  • 下载大小: 1510867343字节。
  • 数据集大小: 5660112964字节。

配置

  • default: 包含以下数据文件:
    • trivial: 路径为data/trivial-*
    • advanced: 路径为data/advanced-*
    • crazy: 路径为data/crazy-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作