five

westbrook/English_Accent_DataSet|语音识别数据集|口音识别数据集

收藏
hugging_face2024-06-02 更新2024-06-12 收录
语音识别
口音识别
下载链接:
https://hf-mirror.com/datasets/westbrook/English_Accent_DataSet
下载链接
链接失效反馈
资源简介:
English_Accent_DataSet是一个包含79小时语音数据的数据集,涵盖23种不同的英语口音。数据来源包括VCTK、EDACC和Voxpopuli。数据集的特征包括音频ID、音频数据、原始文本、说话者性别、说话者ID、口音、音频时长以及数据划分(训练、验证和测试)。

English_Accent_DataSet是一个包含79小时语音数据的数据集,涵盖23种不同的英语口音。数据来源包括VCTK、EDACC和Voxpopuli。数据集的特征包括音频ID、音频数据、原始文本、说话者性别、说话者ID、口音、音频时长以及数据划分(训练、验证和测试)。
提供机构:
westbrook
原始信息汇总

English_Accent_DataSet 概述

数据集描述

  • 时长: 79小时
  • 内容: 包含23种不同英语口音的语音数据
  • 来源: 原始音频数据来自 VCTK, EDACC 和 Voxpopuli

数据集特征

  • audio_id: 音频文件的唯一标识符
  • audio: 音频数据
  • raw_text: 原始转录文本
  • gender: 说话者的性别
  • speaker_id: 说话者的标识符
  • accent: 说话者的口音
  • duration: 音频文件的时长
  • split: 用于训练、验证和测试的分割

口音种类

  • Dutch
  • German
  • Polish
  • French
  • Hungarian
  • Finnish
  • Romanian
  • Slovak
  • Spanish
  • Italian
  • Estonian
  • Lithuanian
  • Croatian
  • Slovene
  • English
  • Scottish
  • Irish
  • NorthernIrish
  • Indian
  • Vietnamese
  • Canadian
  • American
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录