RELATE

Name: RELATE
Creator: 东京大学，日本；庆应义塾大学，日本
Published: 2025-06-30 15:36:28
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://github.com/sarulab-speech/RELATE

下载链接

链接失效反馈

官方服务：

资源简介：

RELATE数据集是一个开源数据集，用于主观评估文本与音频之间的相关性。该数据集包含合成的音频样本和相关性评分，旨在帮助简化文本到音频（TTA）技术的评估过程。数据集涵盖了三个属性：听众、合成的音频和文本，并研究了这些属性对主观评价分数的影响。数据集由东京大学和庆应义塾大学的研究人员创建，并用于构建一个预测模型，该模型能够从合成的音频中自动预测主观评价分数。数据集包含9,963个评价、2,862个音频-文本对、28,806秒的音频时长和1,085名听众的评价。数据集的创建过程包括收集原始音频样本、合成音频样本、主观评价分数和听众属性。数据集的应用领域是文本到音频技术，旨在解决音频样本与输入文本内容的相关性问题。

The RELATE dataset is an open-source dataset for subjective evaluation of the correlation between text and audio. It contains synthesized audio samples and correlation scores, aiming to simplify the evaluation process of text-to-audio (TTA) technologies. The dataset covers three attributes: listeners, synthesized audio and text, and investigates the impact of these attributes on subjective evaluation scores. Developed by researchers from The University of Tokyo and Keio University, the dataset is utilized to build a predictive model that can automatically predict subjective evaluation scores from synthesized audio. It includes 9,963 evaluations, 2,862 audio-text pairs, 28,806 seconds of total audio duration, and ratings from 1,085 listeners. The dataset creation process involves collecting raw audio samples, synthesized audio samples, subjective evaluation scores and listener attributes. The dataset is targeted for text-to-audio technology applications, aiming to address the correlation issue between audio samples and input text content.

提供机构：

东京大学，日本；庆应义塾大学，日本

创建时间：

2025-06-30

搜集汇总

数据集介绍

构建方式

RELATE数据集的构建采用了多模态数据采集与主观评估相结合的方法。研究团队从AudioCaps数据集中精选了1000对原始文本-音频样本，并利用AudioLDM、AudioLDM2等开源文本到音频合成模型生成对应的合成音频。通过设计严谨的听音实验，收集了来自1085名听众对文本-音频相关性的主观评分，涵盖整体相关性（REL）、声音事件包含度（IS）和时间顺序匹配度（OS）三个维度。为确保数据质量，采用锚定样本筛选机制排除评分不稳定的听众，最终构建了包含28,806秒音频的标准化评估数据集。

特点

该数据集具有三个显著特征：首先，其创新性地建立了文本描述与合成音频之间的主观相关性评估体系，填补了该领域标准化评估工具的空白。其次，数据集囊括了丰富的元数据，包括听众的人口统计特征、音频的声学属性以及文本的语义复杂度，为多维度分析提供可能。特别值得注意的是，数据集揭示了合成音频在动物声音类别和时间序列文本描述等特定场景下的性能短板，这些发现对改进文本到音频合成技术具有重要指导价值。

使用方法

RELATE数据集主要服务于文本到音频合成领域的算法评估与优化。研究人员可通过该数据集训练自动评分模型，如论文中采用的基于BYOL-A和RoBERTa的双编码器架构，实现合成音频相关性的自动化评估。使用时应遵循标准的数据划分方案，将9,963次评估作为训练集，3,900次作为测试集。为提升模型性能，建议结合类别平衡损失函数处理数据偏差，并利用听众嵌入向量捕捉个体评分偏好。该数据集还可用于分析不同声音类别和文本复杂度对合成效果的影响，为模型改进提供方向性指导。

背景与挑战

背景概述

RELATE数据集由东京大学和庆应义塾大学的研究团队于2025年提出，旨在解决文本到音频（TTA）生成领域中文本与音频相关性评估的核心问题。该数据集通过主观评分方式，系统性地评估了合成音频与输入文本的语义一致性，填补了传统客观评估方法（如CLAPScore）与人类主观感知之间的鸿沟。数据集包含来自AudioCaps的原始音频及四种主流TTA模型生成的合成音频，覆盖11点量表的三种评分维度（整体相关性、声音事件包含度和时序匹配度），并创新性地引入了听者属性建模，为TTA系统的可解释性评估建立了新范式。

当前挑战

RELATE数据集面临双重挑战：在领域问题层面，文本-音频相关性评估存在主观评分方差大（听者间Krippendorff's α<0.4）、跨类别评估一致性差（如动物声音合成评分显著低于其他类别）等难题；在构建过程中，需克服合成模型偏差（如时序性文本的音频生成失败率达37%）、数据质量控制（通过锚样本筛选排除23%低质量评分）以及多模态对齐（文本事件标签与音频频谱特征的映射误差）等技术瓶颈。此外，现有客观评估指标与人类评分的Spearman相关系数最高仅0.38，揭示出自动评估模型亟待改进的语义理解缺陷。

常用场景

经典使用场景

在文本到音频（TTA）技术的研究中，RELATE数据集被广泛用于评估输入文本与合成音频之间的相关性。通过提供大量经过主观评分的文本-音频对，该数据集为研究者提供了一个标准化的评估平台，用于验证不同TTA模型在生成音频时的语义一致性。特别是在环境声音合成、音乐生成等复杂场景下，RELATE能够帮助研究者量化模型的表现，从而推动技术的进步。

解决学术问题

RELATE数据集解决了TTA领域中主观评估成本高昂且难以标准化的问题。通过构建一个开放的数据集，研究者可以避免重复进行耗时且昂贵的人工评分，同时能够更准确地比较不同模型的性能。此外，该数据集还揭示了音频属性和文本复杂性对评估结果的影响，为优化TTA模型提供了重要的理论依据。

衍生相关工作

RELATE数据集的发布催生了一系列相关研究，包括基于自监督学习的音频特征提取方法、多模态融合技术以及针对特定音频类别的优化模型。例如，一些研究团队利用该数据集开发了新的对比学习框架，进一步提升了文本与音频之间相关性预测的准确性。这些工作不仅扩展了数据集的应用范围，也为TTA技术的未来发展奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集