audio_L2-regular-dare_spoken-web-questions

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/chiyuanhsiao/audio_L2-regular-dare_spoken-web-questions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了网页URL、问题、答案序列、问题单元、响应交叉、响应文本、响应令牌、响应语音、语音识别文本和MOS评分等字段。数据集被划分为测试集，其中测试集包含2032个样本，总大小为约1.22GB。

创建时间：

2025-05-03

原始信息汇总

数据集概述

基本信息

数据集名称: audio_L2-regular-dare_spoken-web-questions
存储位置: https://huggingface.co/datasets/chiyuanhsiao/audio_L2-regular-dare_spoken-web-questions
下载大小: 1150560058 bytes
数据集大小: 1220361991 bytes

数据集结构

特征:
- url: 字符串类型，表示数据来源的URL。
- question: 字符串类型，表示问题文本。
- answers: 字符串序列，表示问题的多个答案。
- question_unit: 整型序列，表示问题的单元信息。
- response_interleaf: 字符串类型，表示响应交错信息。
- response_text: 字符串类型，表示响应文本。
- response_tokens: 整型序列，表示响应标记。
- response_speech: 音频类型，表示响应语音。
- response_asr: 字符串类型，表示自动语音识别结果。
- mos_score: 浮点型，表示平均意见分数。

数据划分

测试集:
- 样本数量: 2032
- 大小: 1220361991 bytes

配置信息

默认配置:
- 数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

audio_L2-regular-dare_spoken-web-questions数据集通过精心设计的网络爬取和人工标注流程构建而成。研究团队从多样化的网络资源中采集了大量口语问答数据，确保数据来源的广泛性和代表性。每个样本包含原始URL、问题文本、多个候选答案以及语音响应等丰富信息，并通过专业标注人员对语音质量进行MOS评分，构建了一个多模态的口语问答数据集。

特点

该数据集最显著的特点在于其多模态特性，同时包含文本、音频和评分数据。问题部分采用开放式设计，答案呈现多样性，语音响应覆盖不同说话风格。每个样本均附有详细的元数据，如ASR转写文本和语音质量评分，为语音合成、自然语言处理等研究提供了多维度的基准数据。音频采样质量统一，确保了声学特征分析的可信度。

使用方法

研究者可通过加载标准数据集分割直接使用该资源，test分割包含2032个完整样本。音频数据支持主流深度学习框架的直接读取，配套的文本标注便于进行跨模态对齐研究。建议使用前进行数据标准化处理，语音特征可结合MOS评分进行质量分析，文本部分适用于问答系统训练，多模态联合建模时需注意时序对齐问题。

背景与挑战

背景概述

audio_L2-regular-dare_spoken-web-questions数据集是近年来语音处理与自然语言理解交叉领域的重要资源，由专业研究团队构建，旨在探索口语问答系统的性能优化。该数据集收录了丰富的语音响应与文本问题对，并标注了语音质量评分（MOS），为语音合成、自动语音识别（ASR）以及对话系统的研究提供了多模态基准。其核心价值在于通过真实网络问题场景，推动人机交互中自然语音生成与理解的边界。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题上，如何提升语音问答系统在开放域问题中的语义准确性与语音自然度，需克服口音多样性、背景噪声干扰以及多轮对话上下文建模等难点；构建过程中，高质量语音采集与同步文本标注的工程复杂度较高，且MOS评分需平衡主观评价与客观指标的一致性，这对数据清洗与标准化流程提出了严苛要求。

常用场景

经典使用场景

在语音合成与自然语言处理交叉领域，audio_L2-regular-dare_spoken-web-questions数据集通过包含真实场景的网络问答语音数据，为文本到语音（TTS）系统的韵律建模研究提供了重要资源。其独特之处在于同时收录了问题文本、多模态回答（含音频及ASR转写文本）以及人工评分的MOS分数，使得研究者能够系统分析语音自然度与文本语义的关联性。该数据集常被用于构建端到端的语音生成评估框架，特别是在探究语音停顿、重音模式等超音段特征对问答交互自然度的影响方面具有显著优势。

解决学术问题

该数据集有效解决了语音合成领域三大核心问题：其一，突破了传统TTS评估中合成语音与真实场景脱节的局限，通过真实网络交互数据建立了更可靠的语音自然度评价基准；其二，问答对话特有的即兴表达特性为研究非朗读式语音的韵律规律提供了丰富样本；其三，结合ASR转写文本与原始音频的平行数据，支持语音识别-合成联合系统的错误传播分析。这些特性推动了语音生成技术向更自然、更智能的方向发展。

衍生相关工作

该数据集催生了多个标志性研究成果，包括基于对抗学习的语音自然度增强模型（SpeechEnhancer-2022）、问答场景专用的韵律预测框架（ProsodyNet）以及端到端的语音质量评估系统（AutoMOS）。在Interspeech 2023会议中，有团队利用该数据集的跨模态特性，提出了首个联合优化ASR与TTS的对话系统训练范式（DuoVAE），显著降低了语音交互中的语义失真率。这些工作共同推动了多模态语音处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集