five

MultiNet|通用智能数据集|视觉语言处理数据集

收藏
arXiv2025-06-11 更新2025-06-13 收录
通用智能
视觉语言处理
下载链接:
https://github.com/ManifoldRG/MultiNet
下载链接
链接失效反馈
资源简介:
MultiNet是一个全面的开放源代码基准测试软件套件,旨在促进通用智能模型的开发和评估。它包含一个大规模的通用数据集,汇集了来自多个领域(视觉、语言、控制)的大量数据,包括图像字幕、视觉问答、常识推理、机器人控制、数字游戏玩法、模拟移动/操作等多种任务。此外,MultiNet还提供了一个开源的数据管理SDK,用于方便地下载和使用数据集。它还引入了一套系统化的评估工具和指标,用于评估最先进的视觉语言模型和视觉语言行动模型的泛化能力。通过开源这些工具和资源,MultiNet旨在促进社区对通用智能系统的开发和研究。
提供机构:
1Metarch 2Manifold Research 3乔治亚理工学院
创建时间:
2025-06-11
原始信息汇总

MultiNet 数据集概述

数据集简介

MultiNet是一个多模态动作模型通用基准测试平台,主要评估视觉-语言-动作模型(VLMs/VLAs)在多种动作数据(如机器人学、程序生成游戏)上的性能。

核心功能

  1. 数据集下载与转换

    • 提供开源视觉-语言+控制/动作数据的集中下载
    • 支持将不同格式的控制数据统一转换为TensorFlow Dataset格式
  2. 模型评估框架

    • 支持零样本评估GPT-4.1、GPT-4o、Pi0、OpenVLA等SOTA模型
    • 提供GenESIS框架用于将VLMs适配到不同任务/数据集
  3. 测试与提交

    • 提供测试数据集分割和评估指南
    • 支持用户提交模型结果到官方排行榜

数据集版本

  • v0.1 (2024-11-08): 专注于真实世界机器人任务
  • v0.2 (2025-05-22): 扩展至程序生成的OOD游戏环境

技术特点

  • 支持多种动作空间评估
  • 提供确定性推理实现要求
  • 包含完整的评估指标实现

使用方法

  1. 环境配置 bash conda create -n multinet python=3.10 conda activate multinet git clone https://github.com/ManifoldRG/MultiNet.git cd MultiNet/src pip install -r requirements.txt

  2. 数据集操作

    • 下载数据集: python centralized_downloader --dataset_name <name> --output_dir <dir>
    • 格式转换: python centralized_translation --dataset_name <name> --dataset_path <path> --output_dir <dir>
  3. 模型评估

    • 支持GPT系列、OpenVLA、Pi0等多种模型评估
    • 提供完整的评估流程脚本

相关资源

  • 论文:
    • v0.1: https://arxiv.org/abs/2411.05821
    • v0.2: https://arxiv.org/abs/2505.05540
    • 数据集规范: https://multinet.ai/static/pdfs/MultiNet_Dataset_Spec_Paper.pdf
  • 官网: https://multinet.ai
  • 框架代码: https://github.com/ManifoldRG/MultiNet/tree/main/src/modules
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录