LUMA

Name: LUMA
Creator: 艾克斯-马赛大学, CNRS, LIS 马赛, 法国
Published: 2024-06-14 17:22:07
License: 暂无描述

arXiv2024-06-14 更新2024-06-18 收录

下载链接：

https://huggingface.co/datasets/bezirganyan/LUMA

下载链接

链接失效反馈

官方服务：

资源简介：

LUMA数据集是由艾克斯-马赛大学、CNRS和LIS马赛联合创建的，旨在为处理不确定性和多模态数据提供一个基准。该数据集包含101,000张图像、135,096个音频记录和62,875个文本段落，总计约3GB。数据集通过Python工具包支持不确定性的控制注入，确保每种模态的数据与其对应的图像和音频记录相关联。LUMA数据集特别适用于需要处理多种数据类型和不同程度不确定性的深度学习模型，如医疗健康、自动驾驶和金融领域，以提高决策的准确性和可靠性。

The LUMA Dataset was jointly created by Aix-Marseille University, CNRS, and LIS Marseille, serving as a benchmark for uncertainty and multimodal data processing. This dataset comprises 101,000 images, 135,096 audio recordings, and 62,875 text passages, with a total size of approximately 3 GB. It supports controlled uncertainty injection via a Python toolkit, ensuring that data of each modality is correlated with its corresponding images and audio recordings. The LUMA Dataset is particularly suitable for deep learning models that need to handle multiple data types and varying degrees of uncertainty across fields such as healthcare, autonomous driving, and finance, to improve the accuracy and reliability of decision-making.

提供机构：

艾克斯-马赛大学, CNRS, LIS 马赛, 法国

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

LUMA 数据集的构建方式颇具匠心，旨在为多模态深度学习提供可靠的数据基础。该数据集从 CIFAR-10/100 图像数据集中精选了 42 个类别，并从中提取了 101,000 张图像。为了丰富数据维度，研究者们从三个音频语料库中提取了 135,096 个音频样本，并利用 Gemma-7B 大型语言模型生成了 62,875 个文本样本。这些样本与图像中的物体相关联，确保了多模态数据的一致性。此外，LUMA 数据集还包含 3,859 个来自 CIFAR-10/100 数据集中剩余 8 个类别的 OOD（Out-of-Distribution）数据点，用于评估模型的泛化能力。

特点

LUMA 数据集拥有诸多独特之处，使其成为研究多模态不确定学习的重要资源。首先，该数据集提供了多种模态的数据，包括图像、音频和文本，为多模态深度学习模型提供了丰富的训练素材。其次，LUMA 数据集允许用户通过 Python 工具包控制数据多样性和噪声水平，从而注入不同类型和程度的不确定性，以实现定制化的实验和基准测试。最后，LUMA 数据集还提供了基线预训练模型和三种不确定性量化方法，包括 Monte-Carlo Dropout、Deep Ensemble 和 Reliable Conflictive Multi-View Learning，为研究者们提供了可靠的起点。

使用方法

LUMA 数据集的使用方法灵活多样，旨在满足不同研究需求。用户可以通过 Python 工具包生成不同版本的数据集，包括控制数据多样性、噪声水平和 OOD 样本数量。此外，LUMA 数据集还提供了基线预训练模型和三种不确定性量化方法，用户可以在此基础上进行实验和基准测试。为了方便研究者们使用，LUMA 数据集还提供了详细的文档和代码示例，帮助用户快速上手。

背景与挑战

背景概述

随着机器学习和深度学习在各领域的广泛应用，多模态深度学习 (MDL) 因其能够整合文本、图像、音频和视频等多种信息源而备受关注。然而，在安全关键领域部署深度学习模型时，模型的可靠性至关重要。传统的深度学习模型往往对其预测结果过度自信，这可能导致灾难性后果。为了解决这一问题，Bezirganyan 等人提出了 LUMA 数据集，旨在为学习不确定和多模态数据提供一个基准数据集。该数据集包含来自 50 个类别的音频、图像和文本数据，并允许研究人员在数据中注入不同程度的随机性和不确定性，从而更好地理解和评估模型在不同条件下的性能。

当前挑战

LUMA 数据集面临的挑战主要包括：1) 多模态不确定性量化 (MUQ) 的研究相对较新，缺乏成熟的评估方法和基准数据集。2) 现有的多模态数据集无法有效地注入受控的、不同类型和程度的不确定性，这限制了 MUQ 技术的全面评估。3) LUMA 数据集中文本模态存在潜在的偏见和事实错误，需要进一步研究和改进。4) 音频模态的样本数量有限，可能无法满足某些研究的需求。

常用场景

经典使用场景

LUMA 数据集，作为学习不确定性和多模态数据的基准数据集，在多模态深度学习领域具有重要的应用价值。该数据集融合了音频、图像和文本三种模态数据，涵盖了 50 个类别，并提供了可控的噪声和不确定性注入工具。这使得 LUMA 成为研究多模态模型在不确定数据上的行为、评估模型鲁棒性和可信赖性的理想平台。此外，LUMA 还提供了基线预训练模型和三种不确定性量化方法，为研究人员提供了便捷的起点。

实际应用

LUMA 数据集的实际应用场景广泛，例如：1) 在医疗领域，LUMA 可用于训练多模态疾病诊断模型，融合患者的影像、音频和文本信息，提高诊断准确性和可靠性；2) 在自动驾驶领域，LUMA 可用于训练多模态感知模型，融合车辆周围的视觉、听觉和文本信息，提高车辆对环境的感知能力；3) 在金融领域，LUMA 可用于训练多模态风险评估模型，融合企业的财务数据、新闻报道和市场数据，提高风险评估的准确性和可靠性。此外，LUMA 还可用于开发多模态智能助手、多模态推荐系统等多模态应用，为用户提供更智能、更个性化的服务。

衍生相关工作

LUMA 数据集的推出，催生了大量相关研究工作，例如：1) 研究不同类型的不确定性对多模态模型的影响；2) 开发更有效的多模态不确定性量化方法；3) 研究多模态模型在 OOD 数据上的鲁棒性；4) 开发多模态模型的可解释性方法。这些研究工作不仅推动了多模态深度学习领域的发展，也为构建更安全可靠的多模态应用提供了重要的理论基础和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集