MUIRBENCH|问答数据集|视觉问答数据集
收藏MuirBench 数据集概述
基本信息
- 语言: 英语
- 许可: CC-BY-4.0
- 数据规模: 1K<n<10K
- 任务类别:
- 问答
- 视觉问答
- 多选题
- 数据集名称: MuirBench
数据集详情
- 特征:
idx
: 字符串task
: 字符串image_relation
: 字符串image_type
: 字符串question
: 字符串options
: 字符串序列answer
: 字符串image_list
: 图像序列counterpart_idx
: 字符串
- 分割:
test
: 2600个样本,2280382684.8字节
- 下载大小: 429440985字节
- 数据集大小: 2280382684.8字节
配置
- 配置名称: default
- 数据文件:
split
: testpath
: data/test-*
- 数据文件:
数据集介绍
- 包含图像数量: 11,264张
- 包含问题数量: 2,600个多选题
- 评估任务: 12种多图像理解任务
- 图像关系: 10种多样化的多图像关系
- 不可回答实例: 通过三种主要方式创建不可回答实例,以提供模型鲁棒性评估
评估结果
- 评估模型: 20个近期多模态大型语言模型(LLMs)
- 最佳模型表现: GPT-4o和Gemini Pro分别达到68.0%和49.3%的准确率
- 开源模型表现: 基于单图像训练的多模态LLMs在多图像问题上准确率低于33.3%

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录