CLEAR

Name: CLEAR
Creator: CLEAR
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://clear-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个持续图像分类的基准，由YFCC100M图像构建而成，包含了按时间顺序从2005年至2014年的10个任务。该数据集还包括CLEAR10（10个对象类别）和CLEAR100（100个对象类别）两种变体。其任务是图像分类。

This dataset is a benchmark for continual image classification, constructed from the YFCC100M image corpus. It contains 10 tasks spanning chronologically from 2005 to 2014, and includes two variants: CLEAR10 (10 object categories) and CLEAR100 (100 object categories). The core task of this benchmark is image classification.

提供机构：

CLEAR

搜集汇总

数据集介绍

构建方式

在声学推理领域，CLEAR数据集的构建借鉴了视觉问答任务中CLEVR范式的合成数据生成理念。该数据集通过精心设计的声学场景生成流程，首先从Good-Sounds数据库中选取五种乐器（大提琴、单簧管、长笛、小号、小提琴）的真实录音作为基础音素，每个音素均标注了乐器类型、亮度、响度、音符、绝对位置、相对位置、全局位置及持续时间等属性。随后，采用随机组合方式将十个基础音素拼接成纯净声学场景，并通过添加均匀分布的白噪声与模拟房间混响的滤波处理，增强场景的复杂性与真实性。问题与答案的生成则基于功能程序的结构化逻辑，通过语义表示树定义推理步骤，确保每个问题对应明确的声学属性关系，并经过验证流程排除无效或退化问题，最终形成包含数万场景与数百万问答对的标准化数据集。

特点

CLEAR数据集的核心特点在于其高度结构化与可解释性，专为声学问答任务而设计。数据集中的声学场景均由标注丰富的基础音素序列构成，每个音素包含多维度属性，如乐器家族、音符音高、声学亮度与响度等，这些属性为复杂推理提供了细粒度基础。问题类型覆盖九大类别，包括是否判断、乐器查询、音符识别、亮度与响度比较、计数及位置定位等，答案空间达47种，充分体现了组合性语言与基础声学推理的挑战。此外，数据集通过功能程序表示问题语义，使得推理步骤透明化，便于模型性能分析与偏差控制。声学场景经过噪声与混响处理，模拟真实环境条件，增强了数据的实用性与泛化需求。

使用方法

CLEAR数据集的使用旨在推动声学推理与问答系统的研究，尤其适用于评估模型在跨模态理解与组合推理方面的能力。研究人员可将声学场景转换为频谱图或波形表示，作为视觉问答模型的输入，利用FiLM等架构进行端到端训练与测试。数据集提供了不同规模的实例（如1000、10000、50000场景），并附带详细的问题-答案对与功能程序标注，支持从简单属性识别到复杂时空关系推理的多层次任务。使用过程中，可依据问题类型与声学属性分布进行模型诊断，分析模型在亮度判断、乐器区分或时序推理等特定维度的表现。数据生成代码的开放进一步允许定制化扩展，如引入环境声音或语音元素，以探索更广泛的声学应用场景。

背景与挑战

背景概述

在人工智能领域，多模态问答任务长期聚焦于文本、图像与视频数据，而声学模态的深度推理能力尚未得到充分探索。CLEAR数据集由加拿大舍布鲁克大学NECOTIS实验室与瑞典皇家理工学院的研究团队于2018年联合创建，旨在填补声学问答（AQA）研究空白。该数据集借鉴CLEVR的合成数据生成范式，通过组合基础乐器声音构建声学场景，并基于功能程序生成涉及声音属性关系的问题与答案。其核心研究问题在于推动机器对声学场景进行组合式语言与基础推理的能力，为声学理解、异常检测及机器人交互等领域提供了首个结构化基准，促进了跨模态推理研究向非视觉领域的拓展。

当前挑战

CLEAR数据集致力于解决声学问答这一新兴领域的核心挑战，即如何使机器仅基于音频流理解复杂声学场景并回答组合式问题。这要求模型具备对声音属性（如乐器、音高、响度）的细粒度感知及时间关系推理能力，克服了传统问答任务对文本或视觉模态的依赖。在构建过程中，研究团队面临多重挑战：一是需设计无偏见的合成数据生成流程，通过功能程序验证避免问题退化或语义歧义；二是声学场景的模拟需平衡真实性与可控性，通过添加噪声与混响增强数据复杂性，同时保持属性标注的精确性；三是为兼容视觉问答模型而将音频转换为固定长度频谱图，限制了声学序列的天然可变性处理，未来需扩展至可变长度场景及重叠声音以提升任务泛化力。

常用场景

经典使用场景

在听觉推理领域，CLEAR数据集为声学问答任务提供了基准测试平台。该数据集通过合成声学场景，将一系列基础声音元素组合成序列，并生成涉及声音属性间关系的复杂问题，从而评估模型在理解声学信息并进行组合推理方面的能力。其经典使用场景包括训练和验证多模态问答模型，特别是那些需要从音频流中直接提取语义信息并执行逻辑推理的神经网络架构，如FiLM模型，这些模型通过处理声谱图形式的音频数据，学习回答关于乐器、音高、响度等属性的问题。

衍生相关工作

CLEAR数据集衍生了一系列围绕声学问答和跨模态推理的经典研究工作。受其启发，研究者扩展了数据集的声源类型，将乐器声音推广至语音、环境音等更广泛的类别，并开发了适配可变长度音频的神经网络架构。后续工作如基于注意力机制的声学推理模型、结合视觉与声学的多模态问答系统，均借鉴了CLEAR的组合问题生成框架。这些进展深化了对声学语义表示的理解，并推动了如听觉场景分析、智能音频处理等交叉领域的技术演进。

数据集最近研究