five

jp1924/MeetingSpeech

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/MeetingSpeech
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如音频、句子、原始形式、开始时间、结束时间、术语、环境、是否为成语、韩文到英文的转换、韩文到数字的转换、说话者信息和元数据等。数据集分为训练集和验证集,分别包含3446200和374680个样本。

该数据集包含多个特征,如音频、句子、原始形式、开始时间、结束时间、术语、环境、是否为成语、韩文到英文的转换、韩文到数字的转换、说话者信息和元数据等。数据集分为训练集和验证集,分别包含3446200和374680个样本。
提供机构:
jp1924
原始信息汇总

数据集概述

数据集特征

  • audio: 采样率为16000的音频数据。
  • id: 字符串类型。
  • sentence: 字符串类型。
  • original_form: 字符串类型。
  • start: 浮点数类型。
  • end: 浮点数类型。
  • term: 字符串类型。
  • environment: 字符串类型。
  • isIdiom: 布尔类型。
  • hangeulToEnglish: 列表类型,包含id(整数16位)、hangeul(字符串)、english(字符串)、begin(整数16位)、end(整数16位)。
  • hangeulToNumber: 列表类型,包含id(整数16位)、hangeul(字符串)、number(字符串)、begin(整数16位)、end(整数16位)。
  • speaker: 结构体类型,包含id(字符串)、name(字符串)、age(字符串)、occupation(字符串)、role(字符串)、sex(字符串)。
  • metadata: 结构体类型,包含多个字段,如title、creator、distributor、year等,均为字符串或整数16位类型。

数据集分割

  • train: 包含3446200个示例,总大小为649259099466字节。
  • validation: 包含374680个示例,总大小为75950798309字节。

数据集大小

  • 下载大小: 715527121692字节。
  • 数据集总大小: 725209897775.0字节。

配置文件

  • default: 包含训练和验证数据的路径配置。
    • 训练数据路径: data/train-*
    • 验证数据路径: data/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作