CASTELLA

github2025-11-20 更新2025-11-22 收录

下载链接：

https://github.com/line/CASTELLA

下载链接

链接失效反馈

官方服务：

资源简介：

CASTELLA是一个用于音频时刻检索任务的人工标注音频基准数据集，包含长音频、局部音频事件的字幕描述和时间边界标注。数据集包含1,862个音频记录，总计3,925个局部字幕和11,308个时间戳标注，分为训练集（1,009个音频）、验证集（213个音频）和测试集（640个音频）。

CASTELLA is a manually annotated audio benchmark dataset for the task of audio moment retrieval. It contains long-form audios, subtitle descriptions of local audio events, and temporal boundary annotations. The dataset consists of 1,862 audio recordings, totaling 3,925 local subtitles and 11,308 timestamp annotations. It is split into a training set (1,009 audio recordings), a validation set (213 audio recordings), and a test set (640 audio recordings).

创建时间：

2025-11-18

原始信息汇总

CASTELLA数据集概述

数据集简介

CASTELLA是一个用于音频时刻检索任务的人工标注音频基准数据集，包含长音频、局部音频事件描述和时间边界信息。

数据集规模

训练集：1,009个音频，2,208个局部描述，6,160个时间戳
验证集：213个音频，357个局部描述，973个时间戳
测试集：640个音频，1,360个局部描述，4,175个时间戳
总计：1,862个音频，3,925个局部描述，11,308个时间戳

数据格式

标注文件结构

JSON文件包含以下字段：

yid：视频标识符
global_caption：全局描述
duration：音频时长（秒）
num_moments：时刻数量
moments：时刻列表
- local_caption：局部音频事件描述
- timestamps：时间边界（秒）

标注语言

提供英文和日文两种语言的标注文件。

数据获取

原始音频数据需要通过专用脚本下载
音频和文本特征可在Zenodo获取

基准模型

Lighthouse框架支持使用CASTELLA进行音频时刻检索任务。

许可证

采用CC BY 4.0许可证。

引用信息

bibtex @misc{munakata2025castella, authors={Hokuto Munakata, Takehiro Imamura, Taichi Nishimura, Tatsuya Komatsu}, title={CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries}, journal={arXiv preprint arXiv:2511.15131}, year={2025} }

搜集汇总

数据集介绍

构建方式

在音频时刻检索研究领域，数据质量直接影响模型性能的可信度。CASTELLA数据集通过人工标注方式构建，从1862条长音频样本中提取出3925个局部音频事件描述及对应的11308个时间边界标注。该数据集采用严谨的三级划分策略，其中训练集包含1009段音频与2208条局部描述，验证集和测试集分别涵盖213段与640段音频样本，确保了模型训练与评估的科学性。所有标注数据以结构化JSON格式存储，完整保留了全局描述、音频时长、事件数量及时间戳等多维度信息。

使用方法

研究者可通过官方提供的音频下载脚本获取原始数据，配合JSON文件夹中的标注文件构建完整数据集。基于Lighthouse框架的音频时刻检索方案为使用该数据集提供了技术实现路径，同时Zenodo平台预提取的音频与文本特征可加速实验进程。在使用过程中，建议遵循训练-验证-测试的标准数据划分方式，利用全局描述与局部时间戳的对应关系设计模型训练目标。该数据集遵循CC BY 4.0许可协议，保障了学术研究的开放性与规范性。

背景与挑战

背景概述

音频时刻检索作为多模态理解的前沿领域，旨在通过自然语言描述定位长音频中的特定片段。CASTELLA数据集由LINE株式会社的研究团队于2025年发布，其命名灵感源于法式烘焙工艺的层次结构，隐喻数据集的精细标注特性。该数据集包含1862条长音频及3925条局部时刻标注，通过全局描述、时间边界与局部字幕的三元组结构，有效解决了早期研究依赖合成数据导致的泛化能力不足问题，为音频语义理解建立了首个大规模人工标注基准。

当前挑战

音频时刻检索领域长期面临真实场景数据匮乏的困境，先前研究仅能基于不足百例样本进行评估，导致模型性能评估可靠性存疑。CASTELLA在构建过程中需克服长音频多事件标注的复杂性，包括跨语言标注一致性维护、时序边界精确标定等难题。该数据集通过24倍于前驱数据的规模扩展，以及精细化的时间戳-描述对齐机制，为模型在真实环境中的时序语义理解能力验证提供了关键支撑。

常用场景

经典使用场景

在音频信息检索领域，CASTELLA数据集通过提供长音频片段、局部事件描述及其精确时间边界，为音频时刻检索任务奠定了重要基础。该数据集包含1862条音频记录与3925条局部标注，支持模型学习在连续音频流中定位特定声学事件，例如从驾驶录音中识别转向灯提示音或发动机启动声，显著提升了时序音频理解的准确性。

解决学术问题

该数据集有效解决了音频时刻检索研究中缺乏真实世界标注数据的核心难题。早期研究依赖合成数据导致模型泛化能力不足，CASTELLA通过大规模人工标注的时序边界与局部描述，建立了可靠的评估基准。其24倍于先前数据集的规模使模型性能评估更具统计意义，推动了对跨模态音频-文本对齐机制的深入探索。

实际应用

基于时序音频理解的技术在智能驾驶辅助系统中具有重要价值，CASTELLA支持的音频时刻检索可用于实时监测车辆状态变化。例如通过识别转向灯声与关门声的时序关系，系统可推断驾驶员操作意图。此类技术还可扩展至安防监控的异常声音检测、智能家居的语音交互优化等现实场景。

数据集最近研究