five

AISHELL/AISHELL-1|语音识别数据集|中文普通话数据集

收藏
hugging_face2024-01-08 更新2024-03-04 收录
语音识别
中文普通话
下载链接:
https://hf-mirror.com/datasets/AISHELL/AISHELL-1
下载链接
链接失效反馈
资源简介:
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
提供机构:
AISHELL
原始信息汇总

数据集概述

数据集名称

  • Aishell

发布机构

  • 北京壳壳科技有限公司(Beijing Shell Shell Technology Co.,Ltd.)

语言

  • 中文(Mandarin)

任务类别

  • 自动语音识别(Automatic Speech Recognition)

数据集描述

  • 由400名来自中国不同口音地区的参与者录制,录音在安静的室内环境中进行,使用高保真麦克风,并降采样至16kHz。
  • 手动转录准确率超过95%,经过专业的语音标注和严格的质量检查。

使用许可

  • Apache-2.0

数据集用途

  • 免费供学术使用,旨在为语音识别领域的新研究者提供适量的数据。
AI搜集汇总
数据集介绍
main_image_url
构建方式
AISHELL/AISHELL-1数据集的构建,采取了在全国不同方言区域招募400名发音人进行录音的方式,录音在静谧的室内环境中进行,使用高保真麦克风进行采集,并统一降至16kHz采样率。通过专业的语音标注与严格的质量审核,确保了语音转录的准确性超过95%,为语音识别领域的新研究者提供了质量上乘的语料资源。
特点
该数据集以其开源、高质量的特性著称,涵盖了丰富的汉语普通话语音样本。它不仅转录精度高,而且参与录音的发音人地域广泛,使得数据集在语音识别研究中具有极高的实用价值。此外,数据集遵循Apache-2.0协议,免费用于学术研究,为学术界的语音识别技术发展提供了有力支撑。
使用方法
使用AISHELL/AISHELL-1数据集,研究者可以依据Apache-2.0协议的规定,自由地应用于学术研究和非商业用途。数据集可通过官方网站获取,同时在使用时,应遵循数据集的引用规范,正确引用相关论文,以尊重数据集的版权和贡献者的工作成果。
背景与挑战
背景概述
AISHELL/AISHELL-1语音数据集,由北京壳壳科技有限公司发布,是一个开源的普通话语音语料库。该数据集的创建旨在为语音识别领域的新研究者提供适量的数据资源,其成立时间为2017年。数据集的构建汇聚了来自中国不同方言区域的400位参与者的录音,这些录音在安静的环境下使用高保真麦克风进行,并下采样至16kHz。经过专业的语音标注和严格的质量检验,手工转录的准确度超过95%,且该数据集免费用于学术研究。AISHELL/AISHELL-1数据集的研究团队包括Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng等成员,该数据集对推动中文语音识别技术发展产生了积极影响。
当前挑战
在领域问题解决方面,AISHELL/AISHELL-1数据集面临的挑战包括如何通过有限的样本量实现高准确度的语音识别。在构建过程中,数据集构建团队遭遇了方言多样性带来的语音变体处理挑战,以及在室内环境录音中如何降低噪声干扰的挑战。此外,确保数据集的可用性和质量,如维持高标准的转录准确度,也是构建过程中的重要挑战。
常用场景
经典使用场景
在语音识别领域,AISHELL-1数据集以其严谨的采集流程和高质量的标注成为研究者的首选。该数据集收集了来自中国各地不同口音的400位发音人的语音,为自动语音识别技术提供了丰富的样本资源,使得研究者在算法训练和模型评估时能够获得更加全面和准确的结果。
实际应用
在实际应用中,AISHELL-1数据集广泛应用于语音识别系统的开发和优化,如语音助手、语音翻译和语音识别软件等。该数据集的利用,显著提高了这些系统的准确性和鲁棒性,为用户提供更加精准和流畅的语音交互体验。
衍生相关工作
基于AISHELL-1数据集,研究者们开展了一系列后续工作,包括但不限于改进语音识别算法、探索跨语种语音识别技术,以及构建更加完善的语音识别模型。这些工作不仅拓宽了语音识别技术的应用领域,也为相关领域的学术交流和技术创新提供了丰富的资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录