audio_L2-regular-15_llama-questions

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/chiyuanhsiao/audio_L2-regular-15_llama-questions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、答案以及相关的文本和音频响应信息。具体特征包括问题文本、答案文本、问题单元的序列编号、响应插页文本、响应文本、响应的令牌序列、响应的音频数据、语音识别结果以及语音质量评分（MOS）。数据集分为测试集，共有300个示例，数据大小约为142MB。

创建时间：

2025-05-02

原始信息汇总

数据集概述

基本信息

数据集名称: audio_L2-regular-15_llama-questions
存储位置: https://huggingface.co/datasets/chiyuanhsiao/audio_L2-regular-15_llama-questions
下载大小: 127224984 bytes
数据集大小: 142908473 bytes

数据集结构

特征

question: 字符串类型，表示问题文本。
answer: 字符串类型，表示答案文本。
question_unit: 整数序列类型，表示问题单元。
response_interleaf: 字符串类型，表示响应交错的文本。
response_text: 字符串类型，表示响应文本。
response_tokens: 整数序列类型，表示响应标记。
response_speech: 音频类型，表示响应语音。
response_asr: 字符串类型，表示自动语音识别结果。
mos_score: 浮点数类型，表示平均意见分数。

数据划分

test: 包含300个样本，大小为142908473 bytes。

配置信息

默认配置: 数据文件路径为 data/test-*，对应测试集。

搜集汇总

数据集介绍

构建方式

在语音合成与自然语言处理交叉领域，audio_L2-regular-15_llama-questions数据集通过结构化流程构建而成。研究团队采用问答对作为基础框架，每个样本包含原始问题文本及其对应的多模态响应，涵盖文本、音频和自动语音识别结果。数据采集过程严格遵循语言学规范，问题单元和响应标记采用序列化编码，同时引入平均主观意见分（MOS）作为语音质量的量化指标，确保数据集的学术严谨性。

特点

该数据集最显著的特征在于其多模态数据集成，同时包含文本、音频和语音识别结果三种表现形式。每个样本不仅保留了原始的问答文本对，还提供了语音合成的波形数据及其对应的音素标记序列，为研究语音合成质量与文本语义的关联性提供了完整链条。特别值得注意的是，数据集包含专业评测人员打分的MOS分数，这为语音自然度研究提供了可靠的基准参考。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的字段结构便于快速开展多模态分析。测试集包含300个样本，每个样本的question字段可作为输入，response_speech和response_text字段分别用于语音合成和文本生成任务的评估。MOS分数则为对比不同模型的输出质量提供了客观标准，特别适合用于端到端语音合成系统的性能评测。

背景与挑战

背景概述

audio_L2-regular-15_llama-questions数据集是一个专注于语音生成与评估的多模态数据集，由研究团队在语音合成与自然语言处理交叉领域构建。该数据集的核心研究问题聚焦于探索基于文本输入的语音生成质量，以及通过平均意见分数（MOS）评估生成语音的自然度和可懂度。数据集的构建反映了当前语音技术领域对高质量、多样化语音样本的需求，为语音合成模型的训练与评估提供了重要资源。

当前挑战

该数据集面临的挑战主要包括两方面：在领域问题层面，如何准确评估生成语音的质量，尤其是在多语言或多方言环境下，确保MOS评分的客观性和一致性是一大难题；在构建过程中，处理大规模语音数据的存储与标注，以及确保语音与文本数据的高质量对齐，均对数据处理流程提出了较高要求。此外，生成语音的自然度和多样性平衡也是技术实现中的关键挑战。

常用场景

经典使用场景

在语音合成与自然语言处理交叉领域，audio_L2-regular-15_llama-questions数据集通过包含问题-答案对及其对应的语音响应，为研究语音生成质量评估提供了标准测试基准。该数据集特别适用于训练和评估端到端的语音合成系统，研究者可通过分析response_speech字段的音频质量与response_text字段的文本一致性，优化语音合成的自然度和准确度。

解决学术问题

该数据集有效解决了语音合成领域两个核心问题：一是缺乏同时包含文本语义标注和对应语音样本的多模态数据，二是缺少客观评估合成语音自然度的标准方法。通过提供带MOS评分（mos_score）的语音样本，研究者能够建立语音质量与文本语义关联的量化模型，推动基于深度学习的语音合成技术向更高保真度发展。

衍生相关工作

基于该数据集衍生的经典工作包括：结合response_tokens序列的语音合成对抗训练方法、利用question_unit特征的问题类型分类模型，以及基于mos_score的语音质量预测神经网络。这些工作显著提升了语音合成系统在韵律控制和情感表达方面的性能，相关成果已被应用于开源语音合成框架的迭代升级。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集