Common-O

Name: Common-O
Creator: AI at Meta
Published: 2025-11-01 05:16:02
License: 暂无描述

Hugging Face2025-11-01 更新2025-11-02 收录

下载链接：

https://huggingface.co/datasets/facebook/Common-O

下载链接

链接失效反馈

官方服务：

资源简介：

Common-O数据集旨在通过询问“这两个场景中有什么是共同的？”来测试多模态语言模型跨场景的推理能力。数据集包含家庭物品的图片，并且分为两个子集：Common-O（每个场景有3到8个物品）和Common-O Complex（每个场景有8到16个物品）。

提供机构：

AI at Meta

创建时间：

2025-10-25

原始信息汇总

Common-O数据集概述

数据集基本信息

名称: Common-O
许可证: MIT
语言: 英语
下载大小: 1,363,755,536字节
数据集大小: 6,003,007,201字节

数据集描述

Common-O受人类认知测试启发，通过询问"有什么共同点？"来探究多模态大语言模型在跨场景推理方面的能力。

数据集特征

数据集包含以下特征字段：

images（图像列表）
objects_1（字符串）
objects_2（字符串）
num_objects_image_1（整型）
num_objects_image_2（整型）
question_template（字符串）
answer_type（字符串）
choices（字符串）
answer（字符串）
num_choices（整型）
num_ground_truth_objects（整型）
real_or_synthetic（字符串）
question（字符串）
ground_truth_objects（字符串）

数据子集

main子集: 10,426个样本，5,408,738,456字节
challenge子集: 12,600个样本，594,268,745字节

数据集构成

包含家居物品
包含两个子集：Common-O（3-8个物体）和Common-O Complex（8-16个物体）

研究重点

多模态大语言模型在单图像感知方面表现出色，但在多场景推理方面存在困难。

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，Common-O数据集通过精心设计的认知测试框架构建而成。该数据集采集了涵盖3至16个家居物体的多场景图像对，每对图像均配有基于模板生成的推理问题。构建过程中采用人工标注与自动化流程相结合的方式，确保问题模板、物体数量统计和答案标注的精确性，最终形成包含主集与挑战集的双分支结构。

特点

该数据集的核心特征在于其多模态推理任务的独特设计。每个数据样本包含两幅图像及对应的跨场景推理问题，要求模型识别不同场景中物体的共性。数据字段涵盖图像对、物体数量统计、问题模板、答案类型和真实物体标注等多维度信息，其中挑战集通过增加物体数量至8-16个，构建了更具复杂性的推理层级。

使用方法

使用该数据集时，研究者可通过HuggingFace数据集库直接加载主集或挑战集的分支数据。典型流程包括加载问题文本、双图像输入及标准答案，构建包含指令提示的多模态输入序列后传入模型。评估阶段采用精确匹配度指标衡量模型输出与标准答案的一致性，适用于多模态大语言模型的跨场景推理能力基准测试。

背景与挑战

背景概述

在人工智能迈向通用场景理解的发展进程中，由Meta AI研究团队于2023年推出的Common-O数据集开创了多场景推理评估新范式。该数据集借鉴人类认知测试机制，通过呈现两幅包含3-16个家居物体的场景图像，要求模型回答'场景共性'这一核心问题，旨在突破传统多模态模型在单图像感知任务的局限。其创新性地构建了包含基础版与复杂版的双子集架构，为衡量模型跨场景抽象推理能力提供了标准化基准，推动了视觉语言理解向更高阶认知层次发展。

当前挑战

该数据集致力于解决多模态推理中跨场景语义关联的核心难题，其构建过程面临双重挑战：在问题维度需克服场景间共性特征的隐式表达困境，要求模型超越表层特征实现深层概念对齐；在数据构造层面，既要保证双场景图像在物体数量与空间布局的合理分布，又需维持问题模板与真实场景的逻辑一致性。特别是复杂子集中8-16个物体的高密度场景，对物体关系建模与噪声过滤机制提出了更严苛的要求。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，Common-O数据集作为多模态推理的基准测试工具，其经典应用场景聚焦于评估模型对多幅图像间共性关系的识别能力。该数据集通过呈现包含3至16个家居物体的场景图像对，要求模型回答“这些场景有何共同之处”这类抽象问题，有效模拟了人类认知中的跨场景归纳推理过程。这种设计使得研究者能够系统性地考察多模态大语言模型在复杂视觉语境下的关联分析能力，为模型性能提供标准化度量框架。

实际应用

在实际应用层面，Common-O所培养的多场景推理能力可广泛应用于智能家居系统、自动驾驶环境感知以及工业质检等领域。例如在智能机器人交互场景中，系统需要快速识别不同房间布局中的功能共性以执行任务规划；在医疗影像分析中，该技术有助于发现不同病例影像间的病理特征关联。这些应用场景对机器理解复杂环境中的潜在规律提出了更高要求，而Common-O正是培育此类能力的重要训练载体。

衍生相关工作

基于Common-O基准测试的学术探索已催生系列创新研究，包括跨模态注意力机制优化、多尺度特征融合架构设计等方向。众多团队通过在该数据集上的实验验证，提出了如动态图神经网络、层次化语义对齐等新型模型结构。这些衍生工作不仅深化了多模态推理的理论基础，更推动了视觉问答、场景理解等相关技术领域的协同发展，形成持续演进的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集