PreFM

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/Yang1213112131/PreFM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是针对NeurIPS 2025论文的在线音频视觉事件解析的预测未来建模方法。数据集包含了两种主要的数据目录：LLP和UnAV-100，每个目录下都有数据和标签子目录。数据包括CLAP、CLIP和OnePeace处理的音频视觉数据，标签分为特征标签和事件类别标签，并进一步细分为训练、验证和测试部分。

This dataset is developed for the future prediction modeling approach for online audio-visual event parsing presented in the NeurIPS 2025 paper. It contains two primary data directories: LLP and UnAV-100, each with subdirectories for data and labels respectively. The data includes audio-visual data processed by CLAP, CLIP, and OnePeace, while the labels are categorized into feature labels and event category labels. Furthermore, the entire dataset is split into training, validation, and test subsets.

创建时间：

2025-10-14

原始信息汇总

PreFM数据集概述

基本信息

数据集名称：PreFM
关联论文：PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling
论文链接：https://arxiv.org/abs/2505.23155
代码仓库：https://github.com/XiaoYu-1123/PreFM

数据集组成

主要子数据集

LLP数据集
UnAV-100数据集

目录结构规范

数据类型

特征数据

CLAP特征
CLIP特征
st特征
OnePeace音频-视觉特征

标签类型

特征标签
事件类别标签
修改后的特征标签（用于PreFM+在On AVEL任务）
事件类别标签（用于PreFM+在On AVEL任务）

数据划分

训练集（train）
验证集（val）
测试集（test）

搜集汇总

数据集介绍

构建方式

在多媒体事件解析领域，PreFM数据集的构建融合了多模态数据处理技术。该数据集整合了LLP和UnAV-100两个子集，通过CLAP、CLIP和OnePeace等先进模型对音视频特征进行系统化提取。特征标注体系按音频与视觉模态分层组织，事件类别标签采用分轨存储架构，形成了层次分明的数据生态系统。

使用方法

针对音视频事件分析的研究需求，PreFM数据集采用模块化使用方案。研究者可依据目录结构按需调用CLAP音频特征、CLIP视觉特征或OnePeace跨模态特征，通过特征标签与事件标签的对应关系构建训练流程。数据集支持端到端的在线事件解析实验，特别适用于预测未来建模任务的算法验证与性能评估。

背景与挑战

背景概述

随着多媒体技术的飞速发展，音频-视觉事件解析成为跨模态智能理解的前沿课题。PreFM数据集由研究团队于2025年提出，作为NeurIPS会议论文的核心成果，专注于通过预测未来建模实现在线音视频事件解析。该数据集整合了LLP与UnAV-100两大子集，通过CLAP、CLIP及OnePeace等多模态特征提取技术，构建了涵盖事件类别标注与特征标签的层次化结构。其创新性在于将时序预测机制引入在线学习框架，为自动驾驶、智能监控等实时决策场景提供了关键数据支撑。

当前挑战

音频-视觉事件解析领域长期面临跨模态语义对齐与实时推理的复杂性挑战。PreFM需解决动态环境中事件边界模糊、模态异步性导致的特征歧义问题，同时需在有限计算资源下实现高精度未来事件预测。数据集构建过程中，多源异构数据的时空同步、大规模特征标注的一致性校验成为主要难点，尤其在使用OnePeace等预训练模型提取跨模态特征时，需平衡计算效率与表征丰富性。此外，在线学习场景下的标签稀疏性与类别不平衡进一步增加了数据标注与质量控制的复杂度。

常用场景

经典使用场景

在多媒体事件解析领域，PreFM数据集通过整合音频与视觉模态的时序信息，为在线事件解析任务提供了关键支持。该数据集常用于训练和评估模型对未来事件的预测能力，尤其在动态环境中实时识别和分割音频-视觉事件方面表现突出，推动了多模态学习在复杂场景下的应用。

解决学术问题

PreFM数据集有效解决了多模态事件解析中的时序对齐与未来预测难题，为学术界提供了统一的评估基准。其结构化的标签体系支持对音频和视觉事件类别的细粒度分析，显著提升了模型在噪声环境下的鲁棒性，并为在线学习框架的开发奠定了数据基础。

实际应用

该数据集在智能监控、人机交互和自动驾驶等实际场景中具有重要价值。通过实时解析环境中的音频-视觉事件，系统能够提前预警潜在风险，例如在交通管理中预测车辆碰撞，或在家居场景中识别异常声响，从而增强智能系统的主动响应能力。

数据集最近研究