HeySQuAD
收藏arXiv2024-02-27 更新2024-06-21 收录
下载链接:
https://github.com/yijingjoanna/HeySQuAD
下载链接
链接失效反馈官方服务:
资源简介:
HeySQuAD是由富达投资创建的大型社区共享语音问答数据集,包含76,000个人类语音问题和97,000个机器生成问题,以及它们对应的文本答案。数据集源自SQuAD QA数据集,旨在评估机器对噪声语音问题的理解能力并提供准确答案。通过广泛测试,该数据集展示了在训练中结合人类语音和原始SQuAD问题能显著提高对人类语音问题的回答准确性。HeySQuAD不仅支持ASR或SQA模型的改进,还适用于音频-文本多模态模型和提高匹配/检索效率,对推动语音问答模型的发展具有重要意义。
HeySQuAD is a large community-shared speech question answering dataset developed by Fidelity Investments. It encompasses 76,000 human-spoken questions, 97,000 machine-generated questions, and their corresponding textual answers. Derived from the SQuAD QA dataset, this dataset is designed to evaluate machine comprehension of noisy spoken questions and generate accurate answers. Extensive testing has shown that integrating human speech inputs and original SQuAD questions during model training can significantly improve the accuracy of responses to human-spoken questions. Beyond supporting the advancement of ASR or SQA models, HeySQuAD is also applicable to audio-text multimodal models and enhancing matching/retrieval efficiency, thus holding substantial significance for advancing the development of speech question answering models.
提供机构:
富达投资
创建时间:
2023-04-27
搜集汇总
数据集介绍

构建方式
在语音问答系统研究领域,构建高质量数据集是推动模型性能提升的关键。HeySQuAD数据集的构建基于广泛使用的SQuAD阅读理解数据集,通过系统化流程采集了人类口语与机器生成的问题音频。具体而言,研究团队招募了12名以英语为母语的发音人,录制了SQuAD中的人类口语问题;同时利用亚马逊Polly服务合成机器生成的问题音频。所有音频均采用16kHz采样率,并利用自动语音识别模型(如facebook/s2t-small-librispeech-asr)进行转录,最终形成包含人类口语转录(HeySQuADh)与机器生成问题转录(HeySQuADm)的两个子集,每个子集均包含48849个训练样本与1002个开发样本,严格遵循SQuAD 1.1的数据格式。
特点
HeySQuAD数据集在语音问答领域展现出显著特点,其规模庞大且资源类型丰富,共包含76,000条人类口语问题与97,000条机器生成问题,成为该领域首个大规模社区共享数据集。数据集中的人类口语问题由母语者录制,涵盖了真实场景中的语音变异与背景噪声,而机器生成问题则通过文本转语音技术合成,两者共同提供了多样化的语音特征。转录文本中存在的词错误率差异(人类口语WER为0.3423,机器生成WER为0.2087)反映了语音噪声对自动识别的影响,为研究语音识别鲁棒性提供了重要基准。此外,数据集还提供了基于Whisper模型的高质量转录版本,支持不同转录质量对问答性能影响的深入分析。
使用方法
HeySQuAD数据集的使用旨在促进语音问答模型的训练与评估,其应用方法具有明确的实验导向。研究人员可将数据集划分为训练集与开发集,利用转录后的问题文本与原始SQuAD上下文进行模型微调。实验设计支持多种训练策略,例如单独使用SQuAD文本问题、结合人类口语或机器生成转录问题进行训练,以及采用两阶段微调方法。评估时,通过精确匹配与F1分数衡量模型在人类口语转录问题上的性能,重点关注转录噪声对答案准确性的影响。数据集还可用于语音识别模型的改进研究,通过对比不同自动语音识别系统的转录质量,探索语音文本多模态表示学习方法。
背景与挑战
背景概述
随着智能助手等现实应用场景的普及,口语问答系统成为自然语言处理领域的研究热点。HeySQuAD数据集由Fidelity Investments的研究团队于2024年构建,旨在解决口语问答中因语音识别噪声导致的性能评估难题。该数据集基于广泛使用的SQuAD阅读理解数据集,包含了7.6万条真人语音问题和9.7万条机器生成问题及其对应文本答案,为模型在嘈杂语音环境下的理解能力提供了大规模评测基准。其核心研究问题聚焦于提升机器对噪声语音问题的准确理解与可靠回答能力,通过实验证明,结合转录语音问题训练能显著提升模型性能,对推动口语问答技术的实际应用具有重要影响力。
当前挑战
HeySQuAD数据集致力于解决口语问答领域的核心挑战,即如何让机器在存在语音识别误差和噪声干扰的情况下,仍能准确理解问题并提供可靠答案。具体挑战包括:语音识别过程中的噪声问题,如背景噪音、发音差异和录音质量不均,导致转录文本与原始问题存在语义偏差;以及构建过程中需平衡真人语音的真实性与机器生成数据的规模,同时确保数据标注的一致性与多说话人语音的多样性。此外,数据集的构建还面临如何有效量化转录错误对问答性能的影响,并设计能够鲁棒处理不同质量转录文本的评估机制。
常用场景
经典使用场景
在语音问答系统研究领域,HeySQuAD数据集常被用于评估和提升模型对含噪声语音问题的理解能力。该数据集通过整合大量真实人类语音问题与机器生成问题的转录文本,为研究者提供了一个模拟现实场景中语音变异性与复杂性的基准平台。经典应用包括训练端到端的语音问答模型,以优化自动语音识别与文本问答的协同性能,从而增强系统在嘈杂环境下的鲁棒性。
解决学术问题
HeySQuAD数据集有效解决了语音问答研究中因语音转录噪声导致的模型性能下降问题。通过提供大规模人类语音与机器生成语音的配对转录,该数据集使得研究者能够深入探究转录错误对问答准确性的影响,并开发出更具适应性的训练策略。其意义在于推动了语音与文本多模态融合方法的发展,为构建高可靠性的口语交互系统奠定了实证基础。
衍生相关工作
HeySQuAD数据集催生了一系列聚焦于语音问答鲁棒性提升的研究工作。例如,基于其转录数据对比分析,学者们提出了针对自动语音识别错误的对抗性领域适应方法,以及利用对比学习增强语音-文本对齐表征的技术。这些工作进一步拓展至多语言、多方言的语音理解任务,推动了口语语言理解技术的跨领域应用与标准化评估框架的建立。
以上内容由遇见数据集搜集并总结生成



