SHARD（Synonym and Hypernym Audio Reasoning Dataset）

Name: SHARD（Synonym and Hypernym Audio Reasoning Dataset）
Creator: 纽约城市大学
Published: 2025-11-04 11:54:55
License: 暂无描述

arXiv2025-11-04 更新2025-11-06 收录

下载链接：

https://github.com/LUMaA-CUNY/Interleaved-Audio-MLLM

下载链接

链接失效反馈

官方服务：

资源简介：

SHARD数据集是一个用于评估基于音频的语义推理能力的新基准，专注于同义词和上位词识别。该数据集由纽约城市大学的研究团队创建，包含78个单词，每个单词有两个同义词和上位词，以及从AudioSet评估数据集中选出的四个音频示例。数据集旨在帮助评估多模态大型语言模型在音频输入上的语义推理能力，特别是在同义词和上位词识别任务上的表现。

The SHARD dataset is a novel benchmark for evaluating audio-based semantic reasoning capabilities, with a primary focus on synonym and hypernym recognition. Developed by a research team at the City University of New York, the dataset contains 78 words, each of which is associated with two synonyms and two hypernyms, alongside four audio examples selected from the AudioSet evaluation dataset. This benchmark aims to facilitate the evaluation of multimodal large language models' semantic reasoning performance when processing audio inputs, particularly their performance on synonym and hypernym recognition tasks.

提供机构：

纽约城市大学

创建时间：

2025-11-04

原始信息汇总

Interleaved-Audio-MLLM 数据集概述

数据集名称

Interleaved-Audio-MLLM

数据集描述

交错音频多模态大语言模型提示与微调

搜集汇总

数据集介绍

构建方式

在音频多模态大语言模型研究领域，SHARD数据集的构建采用了系统化的语义关系标注方法。该数据集基于AudioSet评估数据集中的音频样本，精心筛选了78个核心词汇，每个词汇配备两个同义词和两个上位词，并选取四个仅包含对应标签声音的纯净音频样本。词汇选择覆盖了人类声、生物声和自然声三大声学类别，同义词和上位词关系则通过权威词汇数据库WordNet进行标准化标注，确保了语义关系的准确性和全面性。

特点

作为音频语义推理领域的专业评测基准，SHARD数据集具有鲜明的技术特征。其核心价值在于专注于同义关系和上下位关系这两种基础语义关系的评估，能够有效检验模型对音频内容的语义理解深度。数据集构建特别注重音频样本的纯净度，每个样本仅包含对应标签的单一声音，避免了多源声音的干扰。这种设计使得模型必须建立音频信号与语义概念之间的精确映射，为评估多模态模型的语义推理能力提供了可靠依据。

使用方法

在具体应用层面，SHARD数据集通过标准化的评测流程支持多模态模型的语义推理能力评估。研究人员可以使用数据集提供的同义词和上位词任务模板，对模型进行零样本测试或微调后的性能验证。评测过程中，每个独特的查询组合会重复四次以消除模型响应的随机性，通过正则表达式解析生成文本来提取二元决策结果。这种标准化的评测方法确保了结果的可比性和可复现性，为音频多模态模型的语义推理研究提供了统一的评估框架。

背景与挑战

背景概述

SHARD（Synonym and Hypernym Audio Reasoning Dataset）是由CUNY研究团队于2025年提出的音频多模态大语言模型语义推理基准数据集。该数据集旨在解决音频MLLMs在语义推理任务中的核心瓶颈，即模型难以将语言模型的文本推理能力深度整合到音频模态中。通过聚焦同义词与上位词识别这两类基础语义关系，SHARD构建了包含78个词汇的评估框架，每个词汇配备两组同义词与上位词及四段精选音频样本，数据源自AudioSet评估集并依托WordNet词汇数据库进行语义标注。这一创新基准推动了跨模态语义对齐研究，为音频推理能力的系统评估提供了重要基础。

当前挑战

SHARD针对的领域挑战在于突破音频MLLMs的语义推理局限。传统模型在音频描述任务中表现良好，却难以完成需要深层语义理解的同义词类比与概念层级推理，反映出模态融合浅层化的问题。在构建过程中，数据集面临双重挑战：其一需确保音频样本与语义标签的精确对应，通过严格筛选单一声源音频避免语义干扰；其二在于设计无显式模态提示的评估框架，通过消除“音频片段”等指向性表述，迫使模型建立音频嵌入与文本概念的隐式关联，这对跨模态语义映射的粒度与鲁棒性提出了更高要求。

常用场景

经典使用场景

在音频多模态大语言模型研究中，SHARD数据集作为语义推理基准，专门用于评估模型在音频输入中识别同义词和上位词关系的能力。通过精心设计的音频-文本对，该数据集促使模型深入分析声音信号与词汇语义之间的内在联系，为探索模态融合机制提供了标准化测试环境。

衍生相关工作

基于SHARD的评估框架，研究者开发了交错指令微调方法，催生了LTU模型的改进变体。相关研究进一步拓展至视觉-语言模型的跨模态对齐机制探索，如Chameleon架构的早期融合策略与Mantis模型的时间序列处理技术，形成了多模态推理研究的新范式。

数据集最近研究