the_first_XACLE_challenge_dataset_train_validation

github2025-09-15 更新2025-09-18 收录

下载链接：

https://github.com/XACLE-Challenge/the_first_XACLE_challenge_dataset_train_validation

下载链接

链接失效反馈

官方服务：

资源简介：

这是第一个XACLE挑战的训练和验证数据集，包含7500个音频-文本对用于训练，3000个用于验证。数据集包括音频-文本对、11点语义对齐评分（每位听者）、平均语义对齐评分和听者ID。所有音频样本为单声道16位16kHz格式，文本为英文。

This is the training and validation dataset for the first XACLE Challenge. It contains 7500 audio-text pairs for training and 3000 pairs for validation. The dataset includes audio-text pairs, 11-point semantic alignment scores from each listener, the average semantic alignment score, and listener IDs. All audio samples are in mono 16-bit 16kHz format, and all texts are in English.

创建时间：

2025-09-13

原始信息汇总

数据集概述

数据集名称

The first XACLE challenge dataset

数据集内容

音频-文本对：包含7,500个训练对和3,000个验证对
11点语义对齐评分（每位听者）：每对音频-文本由四位以英语为母语的听者评分，评分范围为0（完全不匹配）到10（完全匹配）
平均语义对齐评分：每对音频-文本的平均评分
听者ID：包含评分听者的ID

数据统计

指标	训练集	验证集
评估次数	30,000	12,000
音频-文本对	7,500	3,000
音频时长（秒）	75,000	30,000
听者数量	2,323	668

文件格式

[train,validation].csv文件：包含4列
- wave_file_name：音频文件名
- text：对应文本
- 11-point semantic-alignment score：每位听者的语义对齐评分
- listener_id：评分听者ID
[train_average,validation_average].csv文件：包含3列
- wave_file_name：音频文件名
- text：对应文本
- average_semantic_alignement_score：平均语义对齐评分

目录结构

XACLE_dataset ├── meta_data │ ├── train_average.csv │ ├── train.csv │ ├── validation_average.csv │ └── validation.csv └── wav ├── train │ ├── 00000.wav │ ├── 00001.wav │ ├── 00002.wav │ ├── ... └── validation ├── 07500.wav ├── 07501.wav ├── 07502.wav ├── ...

音频规格

格式：单声道
位深：16位
采样率：16 kHz
文本语言：英语

下载方式

发送邮件至dataset@xacle.org，主题为"Download dataset"

引用要求

需引用2025年11月初上传至arXiv的论文

致谢

由JSPS KAKENHI（编号24K23880、25K21221）和JST Moonshot（编号JPMJMS2237）资助

搜集汇总

数据集介绍

构建方式

在音频与文本语义对齐研究领域，该数据集通过精心设计的流程构建而成。研究团队收集了7500对训练用和3000对验证用的音频-文本配对样本，所有文本均采用英文书写，音频样本统一转换为单声道16位16kHz格式。为确保数据质量，每对样本由四位以英语为母语的评估者进行语义对齐度评分，评分采用11点量表，从0（完全不匹配）到10（完全匹配），最终生成30000条训练评估数据和12000条验证评估数据。

特点

该数据集的显著特征在于其多维度的语义对齐标注体系。除了提供原始的音频-文本配对外，还包含每位评估者给出的11点语义对齐评分及对应的听者ID，同时为每对样本计算了平均语义对齐分数。数据集覆盖了75000秒训练音频和30000秒验证音频，参与评估的听者数量分别达到2323人和668人，这种设计使得研究者能够从个体差异和整体趋势两个层面深入分析音频与文本的语义关联。

使用方法

使用者可通过邮件申请获取数据集，解压后可见清晰的目录结构：音频文件按训练集和验证集分别存放于wav目录下，元数据文件则包含四个CSV格式的标注文件。其中train.csv和validation.csv详细记录了每个音频文件名、对应文本、四位评估者的语义对齐评分及听者ID；而train_average.csv和validation_average.csv则提供了每对样本的平均语义对齐分数。研究者可据此进行音频文本语义匹配模型的训练与验证，或开展听觉认知相关的深入研究。

背景与挑战

背景概述

音频-文本语义对齐数据集作为跨模态学习研究的重要基础设施，由东京大学研究团队于2025年创建，得到日本学术振兴会（JSPS）及科学技术振兴机构（JST）的基金支持。该数据集包含7500个训练样本和3000个验证样本的音频-文本对，所有音频均采用16kHz采样率的单声道格式，文本内容为英语。其核心研究目标在于构建跨模态语义对齐的评估基准，通过四位英语母语者对每个样本进行11级语义匹配度评分，为音频-文本跨模态理解、语音合成质量评估及多模态机器学习提供关键数据支撑。

当前挑战

该数据集致力于解决音频与文本语义对齐这一跨模态核心问题，其挑战在于如何量化主观感知的语义匹配度，并建立可靠的评估标准。构建过程中需克服多维度挑战：首先需确保音频质量与文本内容的语义一致性，其次要设计科学的主观评估流程以收集四位母语者的精细评分，最后还需处理大规模音频数据预处理与标准化问题，包括音频格式统一、时长平衡及评分者一致性校验等关键技术难点。

常用场景

经典使用场景

在音频-文本跨模态研究领域，该数据集为语义对齐任务提供了标准化的评估基准。研究者利用其7500个训练对和3000个验证对，结合11点语义对齐评分机制，能够系统性地训练和验证跨模态表示学习模型。每个音频样本均经过标准化处理为16kHz单声道格式，确保了数据的一致性，而四位母语者的独立评分则为模型性能提供了可靠的人类评估参照。

实际应用

在实际应用中，该数据集支撑了智能语音助手的语义理解优化，通过提升音频指令与文本意图的匹配精度，增强人机交互的自然性。同时，它在无障碍技术领域发挥重要作用，帮助开发更准确的语音转文本系统，为听障人士提供实时字幕服务。此外，该数据集还可用于多媒体内容检索系统的开发，实现对海量音频数据的语义级索引和查询。

衍生相关工作

基于该数据集衍生的经典工作包括跨模态语义嵌入模型的研究，这些模型通过学习音频与文本的联合表示空间来实现语义对齐。多项研究利用其精细评分机制开发了注意力增强的神经网络架构，显著提升了跨模态检索的准确率。此外，该数据集还催生了针对主观评分一致性的质量控制算法，以及基于多评价者共识的模型优化策略，为跨模态评估方法论提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集