CommonVoice-SpeechRE

Name: CommonVoice-SpeechRE
Creator: 大连海事大学信息科学与技术学院
Published: 2025-09-10 17:35:43
License: 暂无描述

arXiv2025-09-10 更新2025-09-12 收录

下载链接：

https://github.com/NingJinzhong/SpeechRE RPG

下载链接

链接失效反馈

官方服务：

资源简介：

CommonVoice-SpeechRE是一个大规模的数据集，包含近2万条真实人类语音样本，由来自不同讲者的自然语音录音组成。该数据集为语音关系抽取研究提供了新的基准。数据集的内容包括各种讲者档案和场景，旨在解决现有数据集缺乏真实人类语音样本的问题。数据集的创建过程涉及从Common Voice 17.0语料库中筛选和标注相关数据。数据集的应用领域为语音关系抽取，旨在从音频中直接提取关系三元组，以增强知识图谱并支持语音相关应用。

CommonVoice-SpeechRE is a large-scale dataset containing nearly 20,000 real human speech samples, which consist of natural speech recordings from diverse speakers. This dataset provides a new benchmark for speech relation extraction research. The dataset covers a variety of speaker profiles and recording scenarios, aiming to address the shortage of real human speech samples in existing datasets. The creation process of this dataset involves screening and annotating relevant data from the Common Voice 17.0 corpus. This dataset is targeted at speech relation extraction applications, with the goal of directly extracting relation triples from audio to enhance knowledge graphs and support various speech-related applications.

提供机构：

大连海事大学信息科学与技术学院

创建时间：

2025-09-10

搜集汇总

数据集介绍

构建方式

CommonVoice-SpeechRE数据集基于Common Voice 17.0英语子集构建，通过预训练BERT命名实体识别标注器筛选含实体关系的候选样本，并采用ACE04与ACE05标准定义实体与关系类型。十名经过认证的研究生使用Label Studio平台对近两万条语音转录进行人工标注，采用分批次验证机制确保句子级标注准确率超过95%，最终形成包含45种关系类型的大规模真实人类语音数据集。

特点

该数据集涵盖约两万条真实人类语音样本，源自多样化说话者群体，打破了传统语音关系抽取数据依赖合成语音的局限。其语音平均时长约11.6秒，包含14,557条训练样本、2,495条开发集样本及2,494条测试集样本，覆盖15,948个关系三元组。数据兼具说话者多样性与场景丰富性，为语音关系抽取研究提供了更接近真实应用场景的基准。

使用方法

数据集适用于端到端语音关系抽取任务，输入为原始语音信号，输出为结构化关系三元组。使用者可基于Whisper语音编码器提取语音特征，结合潜在关系预测头生成显式关系提示，并通过多视图关系树线性化策略实现多元序三元组生成。推理阶段采用多视图投票机制，若某三元组在超过设定阈值数量的视图中出现，则纳入最终结果，以提升抽取鲁棒性。

背景与挑战

背景概述

语音关系抽取作为信息抽取领域的新兴研究方向，旨在直接从语音信号中提取结构化关系三元组。2025年由大连海事大学、大连理工大学及南京师范大学联合研究团队发布的CommonVoice-SpeechRE数据集，基于Mozilla Common Voice 17.0语料库构建，包含约20,000条真实人类语音样本，覆盖45种关系类型和近两万名说话人。该数据集首次建立了大规模真实语音的关系抽取基准，显著提升了语音与文本跨模态对齐的研究深度，为知识图谱构建和语音理解应用提供了关键数据支撑。

当前挑战

该数据集主要应对语音关系抽取领域的两类挑战：在领域问题层面，需解决真实语音中说话人多样性低、语义对齐弱化导致的模型泛化能力不足问题；在构建过程中，面临从海量语音中筛选有效实体关系样本的标注复杂性，以及跨模态数据融合时语音特征与文本结构对齐的技术难题。此外，还需克服合成语音数据缺乏自然语音韵律特征对模型性能的制约。

常用场景

经典使用场景

在语音信息抽取领域，CommonVoice-SpeechRE数据集为端到端语音关系抽取任务提供了关键支持。该数据集通过整合近两万条真实人类语音样本，覆盖多样化说话人和自然场景，成为评估模型跨模态理解能力的基准平台。其典型应用包括训练模型直接从语音信号中识别实体间语义关系，如从新闻播报或会议录音中提取结构化知识三元组，推动语音驱动的关系抽取研究迈向实用化阶段。

实际应用

在实际应用层面，该数据集支撑的语音关系抽取技术可广泛应用于智能语音助手、会议纪要自动生成和多媒体内容分析等领域。例如，在新闻音频处理中，系统能实时提取人物、事件间的关联信息；在医疗语音记录分析中，可自动识别症状与药物间的治疗关系。这些应用显著提升了语音数据的结构化处理效率，为多模态人工智能系统提供核心技术支持。

衍生相关工作

基于该数据集衍生的经典工作包括多模态生成框架RPG-MoGe，其创新性地提出多序三元组生成策略和潜在关系预测机制。后续研究在此基础上发展了跨模态对比学习方法和动态提示优化技术，如结合Whisper架构的增强型解码器。这些工作共同推动了语音关系抽取从管道式处理向端到端联合建模的范式转变，形成了一系列具有影响力的跨模态信息抽取研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集