jp1924/MeetingSpeech
收藏Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/MeetingSpeech
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如音频、句子、原始形式、开始时间、结束时间、术语、环境、是否为成语、韩文到英文的转换、韩文到数字的转换、说话者信息和元数据等。数据集分为训练集和验证集,分别包含3446200和374680个样本。
该数据集包含多个特征,如音频、句子、原始形式、开始时间、结束时间、术语、环境、是否为成语、韩文到英文的转换、韩文到数字的转换、说话者信息和元数据等。数据集分为训练集和验证集,分别包含3446200和374680个样本。
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
- audio: 采样率为16000的音频数据。
- id: 字符串类型。
- sentence: 字符串类型。
- original_form: 字符串类型。
- start: 浮点数类型。
- end: 浮点数类型。
- term: 字符串类型。
- environment: 字符串类型。
- isIdiom: 布尔类型。
- hangeulToEnglish: 列表类型,包含id(整数16位)、hangeul(字符串)、english(字符串)、begin(整数16位)、end(整数16位)。
- hangeulToNumber: 列表类型,包含id(整数16位)、hangeul(字符串)、number(字符串)、begin(整数16位)、end(整数16位)。
- speaker: 结构体类型,包含id(字符串)、name(字符串)、age(字符串)、occupation(字符串)、role(字符串)、sex(字符串)。
- metadata: 结构体类型,包含多个字段,如title、creator、distributor、year等,均为字符串或整数16位类型。
数据集分割
- train: 包含3446200个示例,总大小为649259099466字节。
- validation: 包含374680个示例,总大小为75950798309字节。
数据集大小
- 下载大小: 715527121692字节。
- 数据集总大小: 725209897775.0字节。
配置文件
- default: 包含训练和验证数据的路径配置。
- 训练数据路径:
data/train-* - 验证数据路径:
data/validation-*
- 训练数据路径:



