bezirganyan/LUMA

Name: bezirganyan/LUMA
Creator: bezirganyan
Published: 2024-06-21 09:38:37
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/bezirganyan/LUMA

下载链接

链接失效反馈

官方服务：

资源简介：

LUMA数据集是一个多模态数据集，包含音频、文本和图像三种模态，主要用于多模态学习和多模态不确定性量化的基准测试。数据集允许在数据中可控地注入不确定性，并且提供了用于编译不同版本数据集的Python工具。数据集的图像模态来自CIFAR-10/100数据集，音频模态包含来自Mozilla Common Voice、The Spoken Wikipedia和LibriSpeech数据集的音频文件，文本模态则是由大型语言模型生成的短文本段落。数据集的结构包括42个类别的训练和测试数据，每个类别有500个训练样本和100个测试样本，剩余的8个类别作为分布外数据提供。

The LUMA dataset is a multimodal dataset, including audio, text, and image modalities, intended for benchmarking multimodal learning and multimodal uncertainty quantification. The dataset allows controlled injection of uncertainties into the data and provides a Python tool for compiling different versions of the dataset. The image modality consists of images from the CIFAR-10/100 datasets, the audio modality includes audio files from the Mozilla Common Voice, The Spoken Wikipedia, and LibriSpeech datasets, and the text modality contains short text passages generated using large language models. The dataset structure includes 42 classes with 500 training samples and 100 test samples per class, and the remaining 8 classes are provided as out-of-distribution (OOD) data.

提供机构：

bezirganyan

原始信息汇总

数据集概述

名称: LUMA: Learning from Uncertain and Multimodal Data

描述: LUMA是一个包含音频、图像和文本的多模态数据集，旨在用于多模态学习和多模态不确定性量化的基准测试。该数据集允许对数据中的不确定性进行控制注入，主要用于研究多模态分类设置中的不确定性量化。

语言: 英语

许可: CC BY-SA 4.0

大小: 100K<n<1M

任务类别:

图像分类
音频分类
文本分类

标签:

不确定性量化
多模态分类
多模态不确定性分类

数据集结构

模态:

图像模态: 包含来自CIFAR-10/100数据集的图像，以及从相同分布生成的图像。
音频模态: 包含人们发音的50个选定类别的wav文件。
文本模态: 包含关于类别标签的短文本段落，使用大型语言模型生成。

数据组织:

每个数据集版本包含42个类别，每个类别有500个样本用于训练，100个样本用于测试。剩余的8个类别作为分布外(OOD)数据。
data/audio目录中的datalist.csv包含音频文件的路径、标签和由文本到语音(TTS)模型预测的标签。

数据集来源

音频数据:

来自Mozilla Common Voice、The Spoken Wikipedia和LibriSpeech数据集。

文本数据:

使用Gemma 7B大型语言模型生成。

图像数据:

来自CIFAR-10/100数据集，需要单独下载。

使用目的

直接使用:

用于研究和基准测试多模态分类。

限制使用:

不得用作知识或信息的来源，因为文本模态可能包含偏见或事实错误。

数据集创建

理由:

为了构建可信赖的多模态模型，需要量化数据和模型本身的不确定性。LUMA数据集旨在通过可控地注入各种类型和数量的不确定性来解决现有数据集的不足。

源数据:

音频数据来自多个公开数据集。
文本数据由大型语言模型生成。
图像数据包括CIFAR-10/100数据集的图像和生成的图像。

注意事项

偏差、风险和限制:

文本模态可能包含由大型语言模型引入的偏见或事实错误。
数据集应仅用于研究多模态不确定性量化，不应作为知识来源。

推荐:

使用数据集时应限于多模态不确定性量化的研究。

搜集汇总

数据集介绍

构建方式

在构建多模态不确定性量化基准数据集的背景下，LUMA数据集通过精心整合图像、音频和文本三种模态数据，实现了对不确定性的可控注入。其图像模态源自CIFAR-10/100数据集的50类子集及同分布生成图像；音频模态汇集了来自Mozilla Common Voice、Spoken Wikipedia和LibriSpeech等多个开源数据集的语音样本，并辅以自主采集的录音；文本模态则利用Gemma 7B大语言模型生成与类别相关的短文。通过专用编译工具，研究者可灵活配置数据多样性、标签噪声及分布外样本等不确定性类型与强度，从而构建出适应不同实验需求的定制化数据集版本。

特点

作为多模态不确定性量化研究的前沿资源，LUMA数据集的核心特征在于其深度融合了不确定性控制与多模态协同。该数据集囊括了图像、音频和文本三种异构模态，每种模态均植入了可量化的不确定性因素，如数据噪声、标签歧义及分布偏移。其结构设计包含42个核心类别及8个分布外类别，每类提供500个训练样本与100个测试样本，确保了评估的统计稳健性。尤为突出的是，数据集通过模块化编译机制，允许研究者精确调节不确定性的维度与程度，为探索多模态环境下的置信度校准、异常检测及鲁棒性学习提供了高度可控的实验平台。

使用方法

为促进多模态不确定性量化方法的系统评估，LUMA数据集提供了完整的工具链以支持便捷的使用流程。研究者首先需克隆项目代码库并配置指定的Conda环境，随后通过Git LFS下载原始数据至本地。利用附带的Python编译脚本，用户可依据YAML配置文件自定义不确定性参数，生成特定版本的数据集。在模型开发阶段，数据集类LUMADataset提供了标准化的数据加载接口，便于集成至深度学习框架。对于无需对齐或预处理的场景，脚本get_unprocessed_data.py可直接输出原始多模态数据，为自定义实验流程保留了灵活性。

背景与挑战

背景概述

在人工智能迈向可信赖多模态学习的进程中，量化数据与模型的不确定性成为核心研究议题。由Grigor Bezirganyan等人于2025年构建的LUMA数据集，作为一项面向不确定性与多模态数据学习的基准资源，旨在填补现有数据集中可控不确定性注入能力的空白。该数据集整合了图像、音频与文本三种模态，通过对CIFAR子集、开源语音库及大语言模型生成文本的系统化融合，为多模态不确定性量化研究提供了标准化实验平台，其成果发表于SIGIR 2025会议，推动了多模态学习在信息检索等领域的可解释性与鲁棒性发展。

当前挑战

LUMA数据集致力于解决多模态不确定性量化这一前沿问题，其核心挑战在于如何设计能够精准反映现实世界复杂性的不确定性注入机制，包括数据多样性、标签噪声、样本噪声及分布外数据的可控模拟。在构建过程中，研究团队面临多源异构数据的对齐与集成难题，需协调来自CIFAR、Common Voice、LibriSpeech等不同许可协议的数据源，并确保大语言模型生成的文本在引入语义不确定性的同时避免知识性谬误，这对数据工程的严谨性与伦理边界提出了双重考验。

常用场景

经典使用场景

在人工智能领域，多模态学习旨在整合图像、文本和音频等多种信息源以提升模型性能，然而数据中的不确定性常阻碍模型可靠性的提升。LUMA数据集通过精心设计的结构，允许研究者可控地注入多样化的不确定性，如标签噪声、样本噪声以及分布外数据，为多模态不确定性量化研究提供了标准化的实验平台。该数据集常用于构建和评估能够鲁棒处理噪声的多模态分类模型，推动模型在复杂真实场景中的泛化能力。

衍生相关工作

自LUMA数据集发布以来，已催生了一系列围绕多模态不确定性量化的经典研究工作。例如，基于该数据集开发的基准模型深入探索了模态间不确定性传播机制，部分研究提出了新型的多模态贝叶斯神经网络框架，以更好地捕获数据中的认知不确定性。此外，该数据集也激发了关于分布外检测、噪声鲁棒性融合策略以及不确定性校准方法的研究，为多模态可信学习领域奠定了坚实的实验基础，并持续推动相关算法与理论的演进。

数据集最近研究