whisper_transcriptions.mls.wer_10.0

Hugging Face2024-09-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/japanese-asr/whisper_transcriptions.mls.wer_10.0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子集，每个子集包含音频文件、转录文本、Whisper转录文本以及输入长度等特征。音频文件的采样率为16000Hz。每个子集都有训练集，并提供了数据大小和样本数量。数据集的总下载大小和数据集大小也在文件中列出。

创建时间：

2024-09-11

原始信息汇总

数据集概述

数据集名称

名称: whisper_transcriptions.mls.wer_10.0

数据集配置

配置名称: 多个子集 (subset_0, subset_1, subset_10, subset_101, subset_102, subset_103, subset_104, subset_105, subset_106, subset_107, subset_108, subset_11, subset_12, subset_121, subset_122, subset_123, subset_124, subset_125, subset_126, subset_127, subset_128, subset_129, subset_13, subset_2, subset_21, subset_22, subset_23, subset_24, subset_3, subset_4, subset_41, subset_5, subset_6, subset_7, subset_8, subset_81, subset_82, subset_83, subset_84, subset_85)

数据集特征

特征:
- 音频 (audio)
  - 采样率: 16000
- 转录文本 (transcription)
  - 数据类型: int64
- 转录文本/ja_gpt3.5 (transcription/ja_gpt3.5)
  - 数据类型: int64
- Whisper转录文本 (whisper_transcription)
  - 数据类型: int64
- Whisper转录文本/ja_gpt3.5 (whisper_transcription/ja_gpt3.5)
  - 数据类型: int64
- 输入长度 (input_length)
  - 数据类型: int64

数据集分割

分割:
- 训练集 (train)
  - 示例数量: 62101 (subset_0), 62323 (subset_1), 62172 (subset_10), 62225 (subset_101), 62219 (subset_102), 62248 (subset_103), 62348 (subset_104), 62287 (subset_105), 62355 (subset_106), 62252 (subset_107), 62398 (subset_108), 62230 (subset_11), 62217 (subset_12), 62219 (subset_121), 62198 (subset_122), 62207 (subset_123), 62044 (subset_124), 62132 (subset_125), 62262 (subset_126), 62182 (subset_127), 62225 (subset_128), 62330 (subset_129), 62202 (subset_13), 62194 (subset_2), 93435 (subset_21), 93272 (subset_22), 93425 (subset_23), 93280 (subset_24), 62185 (subset_3), 62191 (subset_4), 93390 (subset_41), 62238 (subset_5), 62119 (subset_6), 1 (subset_7), 62208 (subset_8), 93149 (subset_81), 93209 (subset_82), 93285 (subset_83), 93224 (subset_84), 93224 (subset_85)

数据集大小

下载大小: 28406057868 (subset_0), 28488972470 (subset_1), 28490041949 (subset_10), 28477636147 (subset_101), 28508104461 (subset_102), 28453790146 (subset_103), 28540369174 (subset_104), 28508203679 (subset_105), 28531446961 (subset_106), 28502966117 (subset_107), 28521313998 (subset_108), 28470625940 (subset_11), 28456064768 (subset_12), 28486036307 (subset_121), 28495894587 (subset_122), 28482461945 (subset_123), 28397807256 (subset_124), 28418245723 (subset_125), 28531745153 (subset_126), 28520446380 (subset_127), 28463177779 (subset_128), 28520805908 (subset_129), 28466354764 (subset_13), 28457283265 (subset_2), 42724070775 (subset_21), 42638436011 (subset_22), 42769260156 (subset_23), 42643630676 (subset_24), 28457664262 (subset_3), 28469961087 (subset_4), 42686048101 (subset_41), 28425692361 (subset_5), 28431028357 (subset_6), 429318 (subset_7), 28456467319 (subset_8), 42605499635 (subset_81), 42617883549 (subset_82), 42734681724 (subset_83), 42640405452 (subset_84), 42640405452 (subset_85)
数据集大小: 29741913577.241814 (subset_0), 29815585138.73427 (subset_1), 29831443458.675167 (subset_10), 29804666990.485275 (subset_101), 29847859656.366245 (subset_102), 29776271336.13424 (subset_103), 29864954995.718533 (subset_104), 29845768222.852547 (subset_105), 29868915195.73696 (subset_106), 29833296511.762436 (subset_107), 29846554379.21017 (subset_108), 29807895865.53131 (subset_11), 29778963955.27637 (subset_12), 29823497463.618946 (subset_121), 29825885978.784977 (subset_122), 29824518738.544853 (subset_123), 29734472830.244003 (subset_124), 29751692495.66535 (subset_125), 29860413580.83239 (subset_126), 29844407241.442238 (subset_127), 29802989154.327606 (subset_128), 29850861116.343075 (subset_129), 29796741055.90437 (subset_13), 29779834173.05709 (subset_2), 44716611297.93694 (subset_21), 44642599292.25394 (subset_22), 44773238981.78718 (subset_23), 44643199115.213066 (subset_24), 29781556446.893677 (subset_3), 29804659756.840668 (subset_4), 44710781677.17146 (subset_41), 29770798634.794384 (subset_5), 29760036816.438248 (subset_6), 435616.0 (subset_7), 29784846446.236767 (subset_8), 44611282857.507706 (subset_81), 44633857773.640816 (subset_82), 44731114501.95697 (subset_83), 44652331899.52017 (subset_84), 44652331899.52017 (subset_85)

搜集汇总

数据集介绍

构建方式

该数据集通过多语言语音识别技术构建，主要基于Whisper模型对音频数据进行转录。数据集中的音频采样率为16000Hz，涵盖了多种语言的转录结果，包括原始转录和通过GPT-3.5模型生成的日语转录。数据集的构建过程涉及对大量音频数据的处理，确保转录结果的准确性和多样性。

特点

该数据集的特点在于其多语言转录能力，尤其是对日语的处理。数据集不仅提供了原始音频的转录结果，还包含了通过GPT-3.5模型生成的日语转录，这为研究多语言语音识别和机器翻译提供了丰富的资源。此外，数据集还包含了音频的长度信息，便于进一步的分析和处理。

使用方法

该数据集适用于多语言语音识别、机器翻译以及自然语言处理领域的研究。研究人员可以通过加载数据集中的音频和转录数据，进行模型训练和评估。数据集的结构清晰，支持直接使用Hugging Face的API进行加载和处理，便于快速集成到现有的研究框架中。

背景与挑战

背景概述

whisper_transcriptions.mls.wer_10.0数据集是一个专注于语音转录任务的高质量数据集，旨在为语音识别领域的研究提供支持。该数据集由多个子集构成，每个子集包含音频数据及其对应的转录文本，涵盖了多种语言和语境。数据集的构建基于大规模的多语言语音数据，并通过Whisper模型生成转录结果，结合了人工标注与自动化处理的优势。该数据集的发布为语音识别模型的训练与评估提供了丰富的资源，尤其在多语言转录任务中展现了其独特的价值。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，语音转录任务本身具有较高的复杂性，尤其是在多语言环境下，语音的多样性、口音差异以及背景噪音等因素都会影响转录的准确性。其次，数据集的构建过程中，如何确保转录文本的质量与一致性是一个关键问题。尽管Whisper模型在自动化转录中表现出色，但其生成的转录结果仍需经过人工校对与修正，以确保数据的可靠性。此外，数据集的规模庞大，存储与处理这些数据对计算资源提出了较高的要求，如何在有限资源下高效处理这些数据也是一个亟待解决的挑战。

常用场景

经典使用场景

whisper_transcriptions.mls.wer_10.0数据集在语音识别领域具有广泛的应用，尤其是在多语言语音转录任务中表现出色。该数据集通过提供高质量的音频样本及其对应的转录文本，为研究人员和开发者提供了一个可靠的基准，用于训练和评估自动语音识别（ASR）模型。其经典使用场景包括语音转文本的实时应用、语音助手开发以及多语言翻译系统的构建。

衍生相关工作

该数据集衍生了许多经典的研究工作，尤其是在多语言语音识别和低资源语言处理领域。基于该数据集的研究成果包括改进的ASR模型架构、跨语言迁移学习方法以及语音识别错误率优化算法。这些工作不仅推动了语音识别技术的发展，还为其他相关领域如自然语言处理和机器翻译提供了重要的参考。

数据集最近研究