CommonVoice-SpeechRE-audio

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/kobe8-24/CommonVoice-SpeechRE-audio

下载链接

链接失效反馈

官方服务：

资源简介：

CommonVoice-SpeechRE-audio数据集提供了用于语音关系提取的CommonVoice-SpeechRE基准音频部分。该数据集源自Common Voice 17.0，包含19,583个语音样本，采样率统一为16kHz。文本注释可在另一个仓库中找到。该数据集根据原始的CC BY 4.0许可证分发。

创建时间：

2025-09-09

原始信息汇总

CommonVoice-SpeechRE-audio 数据集概述

数据集简介

名称：CommonVoice-SpeechRE-audio
用途：语音关系抽取（SpeechRE）基准数据集
来源论文：CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework

数据内容

语言：英语（en）
样本数量：19,583个语音样本
数据来源：基于Common Voice 17.0数据集筛选得到
采样率：16kHz（从原始音频下采样）
文件命名：每个音频文件以其唯一的语音ID命名，与文本存储库中的ID对齐

数据组成

音频部分：本存储库仅提供音频数据
文本标注：对应的文本标注（转录文本、实体和关系）位于CommonVoice-SpeechRE-text

许可信息

许可证：CC BY 4.0
许可说明：音频子集直接源自Common Voice 17.0，采用原始CC BY 4.0许可证分发

引用要求

使用本数据集时需同时引用Common Voice和CommonVoice-SpeechRE工作

任务类别

主要任务：其他（OTHER）
相关标签：speech-relation-extraction, audio, speech, common-voice

搜集汇总

数据集介绍

构建方式

在语音信息处理领域，高质量数据集的构建是推动技术发展的关键。CommonVoice-SpeechRE-audio数据集基于Common Voice 17.0的大规模多语言语音语料库，通过精心筛选出19,583条语音样本，每条样本均经过严格的音频处理流程，包括统一降采样至16kHz以适配主流语音处理框架，确保音频质量与格式的一致性。数据集的构建过程注重样本的多样性与代表性，为语音关系抽取任务提供了可靠的音频基础。

特点

该数据集的核心特点在于其专注于语音关系抽取任务，所有音频样本均与文本标注严格对齐，每个音频文件以其唯一的语音ID命名，便于与文本仓库中的实体和关系注释进行无缝对接。音频内容覆盖多种语音场景与说话人特征，采样率统一为16kHz，既满足了计算效率的要求，又保持了语音信号的完整性，为模型训练与评估提供了丰富且一致的语音输入。

使用方法

研究人员在使用该数据集时，需结合其对应的文本注释仓库CommonVoice-SpeechRE-text，以获取完整的转录文本、实体及关系标注信息。数据集可直接用于训练和评估语音关系抽取模型，支持端到端的语音处理流程。使用者应遵循CC BY 4.0许可协议，并同时引用Common Voice原始论文及本数据集的相关研究论文，以确保学术规范的遵守与知识贡献的合理归属。

背景与挑战

背景概述

语音关系抽取作为信息抽取领域的重要分支，致力于直接从语音信号中识别实体间的语义关系。CommonVoice-SpeechRE-audio数据集由研究团队于2025年创建，基于Mozilla Common Voice 17.0语料库构建，包含19,583条降采样至16kHz的语音样本。该数据集通过融合语音处理与关系抽取任务，为跨模态信息提取研究提供了重要基准，推动了语音文档自动分析和知识图谱构建等领域的发展。

当前挑战

在语音关系抽取领域，模型需同时处理语音信号中的声学特征和语义关联，这对声学建模与语义理解的协同提出了极高要求。数据集构建过程中面临多重挑战：需从海量语音数据中精准筛选符合关系抽取要求的样本，确保音频质量与文本标注的一致性；同时要解决原始音频采样率差异问题，通过降采样实现标准化处理，并保持与文本标注数据的严格对齐。

常用场景

经典使用场景

在语音信息处理领域，CommonVoice-SpeechRE-audio数据集被广泛应用于语音关系抽取任务的研究中。该数据集通过提供高质量的语音样本及其对应的文本标注，支持端到端的语音关系抽取模型训练。研究者利用这些语音数据，能够直接分析音频信号中的语义关系，无需依赖自动语音识别系统的中间转换，从而减少了错误传播并提升了模型性能。

实际应用

在实际应用层面，CommonVoice-SpeechRE-audio数据集为智能语音助手、语音搜索引擎和对话系统提供了关键技术支持。基于该数据集训练的模型能够直接从语音输入中提取结构化信息，显著提升了语音交互系统的准确性和效率。这些应用在客户服务自动化、医疗语音记录分析和教育语音辅助工具等领域展现出广泛的应用前景。

衍生相关工作

该数据集的发布催生了一系列创新性研究，其中最典型的是与其配套提出的RPG-MoGe多阶生成框架。这些衍生工作主要集中在端到端语音关系抽取模型的架构设计、多模态融合策略以及跨语言语音关系抽取等方面。相关研究不仅拓展了数据集的应用范围，还为语音理解领域提供了新的方法论和技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集