five

HypR

收藏
github2023-09-27 更新2024-05-31 收录
下载链接:
https://github.com/Alfred0622/HypR
下载链接
链接失效反馈
官方服务:
资源简介:
HypR数据集是一个用于ASR假设修订任务的基准语料库,包含了多个常用语料库(如AISHELL-1, TED-LIUM 2, 和LibriSpeech),并为每个语音话语提供50个识别假设。此外,还发布了ASR的检查点模型。该数据集旨在成为后续研究的参考基准,并推动语音识别结果修订研究领域的发展。

The HypR dataset serves as a benchmark corpus for the task of ASR hypothesis revision, encompassing several widely-used corpora (such as AISHELL-1, TED-LIUM 2, and LibriSpeech) and providing 50 recognition hypotheses for each spoken utterance. Additionally, checkpoint models for ASR have been released. This dataset is designed to act as a reference benchmark for subsequent research and to propel advancements in the field of speech recognition result revision.
创建时间:
2023-09-07
原始信息汇总

数据集概述

数据集名称

  • HypR:ASR假设修正的综合研究,包含参考语料库。

数据集内容

  • 包含的语料库:AISHELL-1, TED-LIUM 2, LibriSpeech。
  • 每条语音记录的特征
    • utt_id:语音标识符。
    • ref:参考文本。
    • hyps:50个最佳假设。
    • att_score:ASR系统的注意力解码分数。
    • ctc_score:ASR系统的ctc解码分数。
    • lm_score:语言模型的解码分数(仅在使用语言模型时包含)。
    • score:每个假设的综合分数。

数据集格式

python { utt_id: str, ref: str, hyps: list[str], att_score: list[float], ctc_score: list[float], lm_score: list[float], (仅在使用语言模型时包含) score: list[float] }

分数计算方法

  • 综合分数计算公式: $$ ext{score} = [(1 - lambda_{CTC}) imes ext{att\_score} + lambda_{CTC} imes ext{ctc\_score}] + lambda_{LM} imes ext{lm\_score}$$
  • 超参数
    数据集 $lambda_{CTC}$ $lambda_{LM}$
    AISHELL-1 0.5 0.7
    TED-LIUM 2 0.3 0.5
    LibriSpeech 0.4 0.7

下载与使用

  • 下载地址HypR
  • 使用示例: python from datasets import load_dataset dataset = load_dataset("ASR-HypR/LibriSpeech_withoutLM")

许可证

  • 使用范围:学术目的免费使用,商业用途需参考原始数据集许可证。

引用信息

  • 引用格式

    @misc{wang2023hypr, title={HypR: A comprehensive study for ASR hypothesis revising with a reference corpus}, author={Yi-Wei Wang and Ke-Han Lu and Kuan-Yu Chen}, year={2023}, eprint={2309.09838}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
HypR数据集的构建基于多个广泛使用的语音识别语料库,包括AISHELL-1、TED-LIUM 2和LibriSpeech。每个语音片段均生成了50个识别假设,这些假设通过自动语音识别系统生成,并附带了来自注意力机制、CTC解码和语言模型的评分。数据集的构建过程中,采用了ESPNet工具包的默认设置,计算了每个假设的注意力得分、CTC得分和语言模型得分,并通过加权求和的方式得到最终的综合评分。此外,数据集中还包含了每个语音片段的参考文本,以便于后续的模型评估和比较。
特点
HypR数据集的特点在于其全面性和多样性。它不仅涵盖了多个语料库,还提供了丰富的识别假设,每个假设都附带了详细的评分信息,包括注意力得分、CTC得分和语言模型得分。这些评分为研究者提供了多角度的分析依据,有助于深入理解不同模型在语音识别任务中的表现。此外,数据集的格式设计简洁明了,便于直接应用于各种语音识别模型的训练和评估。通过提供统一的基准,HypR数据集为不同研究之间的比较提供了便利,推动了语音识别领域的研究进展。
使用方法
HypR数据集的使用方法简便且灵活。用户可以通过Huggingface平台直接下载数据集,并使用Python中的`datasets`库进行加载。数据集支持按需加载特定语料库或数据分割,例如可以仅加载LibriSpeech语料库的开发集。加载后的数据可以直接用于模型训练或评估,格式为包含语音片段ID、参考文本、识别假设列表及各项得分的字典结构。此外,数据集中提供的评分信息可以用于模型的调优和性能分析。通过这种方式,研究者可以快速上手并利用HypR数据集进行语音识别相关的研究工作。
背景与挑战
背景概述
随着深度学习技术的迅猛发展,自动语音识别(ASR)领域取得了显著进展。为进一步提升识别性能,修正识别结果成为一种轻量且高效的方法。现有方法主要分为N-best重排序方法和错误修正模型,然而这些研究因使用不同语料库、ASR模型和训练数据集而难以相互比较。为此,Yi-Wei Wang、Ke-Han Lu和Kuan-Yu Chen等人于2023年发布了HypR数据集,旨在为ASR假设修正研究提供统一的基准。HypR整合了AISHELL-1、TED-LIUM 2和LibriSpeech等常用语料库,并为每条语音提供了50个识别假设,同时公开了ASR模型的检查点。该数据集的发布不仅推动了ASR修正研究的标准化,还为后续研究提供了重要参考。
当前挑战
HypR数据集在构建和应用中面临多重挑战。首先,ASR假设修正领域的研究因缺乏统一的评估标准而难以横向比较,HypR试图通过整合多源语料库和提供标准化数据格式来解决这一问题。其次,数据集的构建过程中需处理不同语料库的异构性,确保数据格式的统一性和兼容性。此外,如何有效融合注意力解码分数、CTC解码分数和语言模型分数以生成最终评分,也是数据集构建中的技术难点。最后,尽管HypR为ASR修正研究提供了基准,但其在不同语言和场景下的泛化能力仍需进一步验证,以应对更广泛的语音识别任务需求。
常用场景
经典使用场景
HypR数据集在自动语音识别(ASR)领域中被广泛用于假设修正任务。通过提供多个ASR系统生成的50个最佳假设,HypR为研究人员提供了一个标准化的评估平台,用于比较不同的假设重排序和错误修正模型。该数据集的使用场景涵盖了从基础研究到实际应用的多个层面,尤其是在提升ASR系统识别准确率方面具有重要价值。
实际应用
在实际应用中,HypR数据集可以用于提升语音识别系统的性能,尤其是在需要高精度识别的场景中,如语音助手、语音翻译和语音转文字服务。通过使用HypR数据集中的假设修正技术,可以显著减少识别错误,提高用户体验。此外,该数据集还可用于开发更智能的语音交互系统,进一步推动语音技术在商业和日常生活中的应用。
衍生相关工作
HypR数据集的发布催生了一系列相关研究工作,特别是在ASR假设修正领域。基于HypR,研究人员提出了多种新的重排序和错误修正算法,进一步提升了ASR系统的性能。此外,HypR还促进了跨领域合作,推动了语音识别与自然语言处理技术的融合,为未来的多模态研究奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作