five

google/red_ace_asr_error_detection_and_correction

收藏
Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/google/red_ace_asr_error_detection_and_correction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集可用于训练和评估ASR错误检测或纠正模型。它基于LibriSpeech语料库,使用Google Cloud Speech-to-Text API进行解码,并提供了单词级别的置信度分数和错误标签。数据集包含训练、开发和测试分割,与LibriSpeech的分割相对应。数据格式为JSON行,包含ID、真实转录、ASR模型、假设转录、置信度分数和错误标签等键值对。

This dataset can be used to train and evaluate ASR error detection or correction models. It is based on the LibriSpeech corpus, decoded using the Google Cloud Speech-to-Text API, and provides word-level confidence scores and error labels. The dataset includes training, development, and test splits that correspond to those of LibriSpeech. The data is formatted as JSON Lines, containing key-value pairs such as ID, ground truth transcription, ASR model, hypothesized transcription, confidence scores, and error labels.
提供机构:
google
原始信息汇总

RED-ACE 数据集概述

数据集简介

RED-ACE 数据集用于训练和评估 ASR 错误检测或纠正 模型。该数据集基于 LibriSpeech 语料库,包含带有标注的转录错误。

数据集详细信息

  • 转录方法:使用 Google Cloud Speech-to-Text API 的默认和视频模型对 LibriSpeech 语料库进行解码。
  • 错误标注:通过将假设转录与参考转录对齐,计算最小编辑距离,标注出插入、删除和替换错误。
  • 数据格式:包含训练、开发和测试集,数据以 JSON 行格式存储。

数据格式

数据包含以下键:

  • "id":LibriSpeech 的 ID。
  • "truth":LibriSpeech 的参考(正确)转录。
  • "asr_model":用于转录的 ASR 模型。
  • "librispeech_pool":LibriSpeech 数据中的原始池(分割)。
  • "asr_hypothesis":转录假设。
  • "confidence_scores":转录假设中的词级置信度分数。
  • "error_labels":错误标签(1 表示错误,0 表示无错误)。

示例数据

json { "id": "test-other/6070/86744/6070-86744-0024", "truth": "my dear franz replied albert when upon receipt of my letter you found the necessity of asking the counts assistance you promptly went to him saying my friend albert de morcerf is in danger help me to deliver him", "asr_model": "default", "librispeech_pool": "other", "asr_hypothesis": ["my", "dear", "friends", "replied", "Albert", "received", "my", "letter", "you", "found", "the", "necessity", "of", "asking", "the", "county", "assistance", "you", "promptly", "went", "to", "him", "saying", "my", "friend", "all", "but", "the", "most", "stuff", "is", "in", "danger", "help", "me", "to", "deliver", "it"], "confidence_scores": ["0.9876290559768677", "0.9875272512435913", "0.6921446323394775", "0.9613730311393738", "0.9413103461265564", "0.6563355922698975", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "1.0", "1.0", "1.0", "1.0", "1.0", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.9876290559768677", "0.5291957855224609", "0.5291957855224609"], "error_labels": ["0", "0", "1", "0", "0", "1", "0", "0", "0", "0", "0", "0", "0", "0", "0", "1", "0", "0", "0", "0", "0", "0", "0", "0", "0", "1", "1", "1", "1", "1", "0", "0", "0", "0", "0", "0", "0", "1"] }

搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别领域,高质量的标注数据对于模型性能评估至关重要。RED-ACE数据集基于LibriSpeech语料库构建,通过Google Cloud Speech-to-Text API的默认和视频模型进行解码,并启用了词级置信度评分。通过最小编辑距离算法将识别假设与参考转录对齐,从而标注出插入、删除和替换错误,生成对应的错误标签,为ASR错误检测与纠正任务提供了精准的标注基础。
特点
该数据集融合了多维度信息,不仅包含ASR转录假设和参考文本,还集成了词级置信度分数与错误标签,形成了丰富的结构化表示。其数据划分与LibriSpeech原始分割保持一致,确保了评估的连贯性与可比性。此外,数据集覆盖了不同ASR模型输出,增强了其在多样化语音识别场景下的适用性与鲁棒性,为研究提供了全面而细致的实验素材。
使用方法
研究人员可利用该数据集训练和评估ASR错误检测或纠正模型。通过加载数据集,可以访问包含ID、参考转录、ASR模型类型、假设文本、置信度分数及错误标签的JSON行数据。典型应用包括构建端到端错误检测系统,或结合置信度嵌入层提升模型性能。数据集的标准化格式便于集成到现有机器学习流程中,支持高效的模型迭代与验证。
背景与挑战
背景概述
在自动语音识别技术迅猛发展的背景下,提升转录准确性的需求日益凸显。谷歌研究团队于2022年推出了RED-ACE数据集,旨在为ASR错误检测与纠正模型提供训练与评估资源。该数据集基于LibriSpeech语料库,通过Google Cloud Speech-to-Text API生成转录假设,并标注了词级错误标签。其核心研究问题聚焦于利用ASR置信度分数增强错误检测的鲁棒性,推动了语音处理领域对多信号融合方法的探索,为后续研究提供了重要基准。
当前挑战
RED-ACE数据集致力于解决自动语音识别中错误检测的挑战,包括如何有效区分细微的语音变异、口音差异及背景噪声导致的转录误差。在构建过程中,面临对齐参考文本与假设转录的复杂性,需通过最小编辑距离算法精准标注插入、删除和替换错误;同时,整合词级置信度分数时,需确保其与文本信号的互补性,以克服单一文本输入在语境理解上的局限,这要求数据处理兼具高精度与可扩展性。
常用场景
经典使用场景
在自动语音识别领域,RED-ACE数据集为研究者提供了一个标准化的评估平台,专门用于训练和测试ASR错误检测与校正模型。该数据集基于LibriSpeech语料库,通过Google Cloud Speech-to-Text API生成转录假设,并标注了词级错误标签。其经典使用场景包括利用词级置信度分数和转录文本,构建端到端的错误检测系统,以识别ASR输出中的插入、删除和替换错误,从而提升语音识别后处理的精度与鲁棒性。
解决学术问题
RED-ACE数据集有效解决了自动语音识别中错误检测的若干核心学术问题。传统方法往往仅依赖转录文本,忽视了ASR模型内部的置信度信号,而该数据集通过整合词级置信度分数,为模型提供了多模态输入,增强了错误识别的准确性。其意义在于推动了AED领域从纯文本分析向多信号融合的范式转变,促进了更稳健的误差检测框架的发展,对提升语音识别系统的可靠性和用户体验具有深远影响。
衍生相关工作
围绕RED-ACE数据集,已衍生出多项经典研究工作。原始论文提出的ASR置信度嵌入方法为后续研究奠定了基础,激发了更多融合多模态信号的AED模型探索。例如,后续工作扩展了置信度分数的利用方式,结合深度学习架构如Transformer,开发了更高效的错误校正算法。这些研究不仅推动了AED技术的进步,还促进了跨领域如自然语言处理与语音合成的交叉创新,丰富了学术文献与实践工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作