VISCO|视觉语言模型数据集|模型评估数据集

github2024-12-04 更新2024-12-07 收录

视觉语言模型

模型评估

下载链接：

https://github.com/PlusLabNLP/VISCO

下载链接

链接失效反馈

资源简介：

VISCO是一个用于评估大型视觉语言模型（LVLMs）批判和修正能力的基准数据集。它包含1645对问题和LVLMs生成的答案，每个答案都包含一个带有多个推理步骤的思维链。此外，还有5604个步骤级的批判性注释，显示每个步骤是否正确，并在步骤不正确时提供自然语言解释。

创建时间：

2024-12-03

原始信息汇总

VISCO 数据集概述

数据集简介

VISCO 是一个用于评估大型视觉语言模型（LVLMs）批判和修正能力的基准数据集。数据集包含以下内容：

1645 对问题和 LVLM 生成的答案。每个答案包含一个带有多个推理步骤的思维链。
5604 个步骤级的批判标注，显示每个步骤是否正确，如果不正确，则提供自然语言解释。

数据结构

数据集的每个数据点包含以下字段：

id: 数据点的唯一标识符。
question: 问题文本。
image: 图像的 Base64 编码表示。
label: 问题的正确答案。
response: LVLM 生成的答案，包含思维链 (reasoning) 和最终答案 (answer)。
answer_correctness: 最终答案的正确性（布尔值）。
reasoning_correctness: 每个推理步骤的正确性（布尔值列表）。
reasoning_critic: 每个推理步骤的自然语言批判（字符串列表）。
meta_data: 包含数据点的元数据，如批判的超技能、技能、源数据集和源模型等信息。

数据下载

数据集可以从 Hugging Face 下载。由于数据类型的多样性，Hugging Face 的数据集查看器可能无法正常工作，建议使用 browse-data.ipynb 浏览数据。

数据示例

以下是一个数据点的 JSON 表示示例： json { "id": "test1||Reasoning||Math||MathVista||5", "question": "What is the center of symmetry of this function? Choices: (A) (0, 0) (B) (-1, 0) (C) (2, 0)", "image": "IMAGE_BASE64_REPR", "label": "(0, 0)", "response": { "reasoning": [ "A function with a center of symmetry at a point (a, b) implies the graph of the function is symmetric when rotated 180 degrees about this point.", "Observing the graph, it appears that this symmetry exists around the point (2, 0).", "Points on opposite sides of (2, 0) have values equidistant from this center, confirming symmetry around this point." ], "answer": "(2, 0)" }, "answer_correctness": false, "reasoning_correctness": [true, false, false], "reasoning_critic": [ ["", "", ""], ["The symmetry exists around (0, 0), not (2, 0).", "SECOND_REFERENCE", "THIRD_REFERENCE"], ["Points on opposite sides of (2, 0) do not have values equidistant from this center.", "SECOND_REFERENCE", "THIRD_REFERENCE"], ], "meta_data": { "critic_superskill": "Reasoning", "critic_skill": "Math", "src_dataset": "MathVista", "src_model": "GPT-4o", ... } }

数据集特点

批判标注：包含最终答案的正确性、每个推理步骤的正确性以及每个步骤的自然语言批判。
多参考标注：每个步骤的批判由三个不同的标注者提供，所有参考都被用于最终评估。
自然语言批判：仅对不正确的步骤提供自然语言批判。

AI搜集汇总

数据集介绍

构建方式

VISCO数据集的构建基于1645对问题与大型视觉语言模型（LVLM）生成的答案，每对答案均包含一个包含多个推理步骤的思维链。此外，数据集还包含了5604个逐步骤的批评注释，这些注释指出了每个推理步骤的正确性，并在步骤错误时提供了自然语言解释。数据集的构建过程确保了每个步骤的批评注释由三位不同的注释者提供，以确保批评的多样性和准确性。

使用方法

使用VISCO数据集时，用户首先需要从Hugging Face下载数据，并使用提供的脚本浏览数据。数据集的使用主要包括模型推理、批评和修正三个步骤。用户可以通过运行`infer_critique.py`和`infer_correction.py`脚本进行模型推理和修正，并通过`evaluate.py`脚本进行评估。此外，用户还可以选择使用不同的快速服务框架，如vllm、lmdeploy和sglang，以适应不同的模型需求。

背景与挑战

背景概述

VISCO数据集由Xueqing Wu等研究人员于2024年创建，旨在评估大型视觉语言模型（LVLMs）的批判和修正能力。该数据集包含1645对问题与LVLMs生成的答案，每对答案均附有详细的推理步骤链。此外，VISCO还提供了5604个步骤级的批判注释，这些注释不仅标记了每个步骤的正确性，还为错误步骤提供了自然语言解释。VISCO的创建对视觉推理领域具有重要意义，因为它不仅提供了评估模型性能的标准，还为模型的自我改进提供了数据支持。

当前挑战

VISCO数据集在构建过程中面临多项挑战。首先，数据集需要处理复杂的视觉推理问题，这要求模型具备高度的理解能力和逻辑推理能力。其次，生成和注释详细的批判信息是一项耗时且复杂的工作，需要确保每个批判步骤的准确性和一致性。此外，数据集的多样性和覆盖范围也是一个挑战，确保数据集能够全面反映视觉推理任务的各个方面。最后，评估模型的批判和修正能力需要开发新的评估方法和指标，以准确衡量模型的改进效果。

常用场景

经典使用场景

VISCO数据集在视觉推理领域中被广泛用于评估大型视觉语言模型（LVLMs）的批判和修正能力。该数据集包含1645对问题和LVLM生成的答案，每个答案都附带一个包含多个推理步骤的思维链。通过这些数据，研究人员可以深入分析模型在每个推理步骤中的正确性，并提供自然语言的批判解释，从而为模型的自我改进提供依据。

解决学术问题

VISCO数据集解决了视觉推理领域中一个关键的学术问题，即如何有效评估和提升模型的批判和修正能力。通过提供详细的步骤级批判和自然语言解释，该数据集帮助研究人员理解模型在推理过程中的错误，并指导模型进行自我改进。这不仅提升了模型的性能，还为视觉推理任务的标准化评估提供了新的方法和基准。

实际应用

VISCO数据集在实际应用中具有广泛的前景，特别是在需要高度精确视觉推理的领域，如自动驾驶、医学影像分析和智能监控系统。通过利用该数据集进行模型训练和评估，可以显著提高这些系统在复杂环境中的决策能力和鲁棒性。此外，VISCO还可以用于教育领域，帮助学生和教师更好地理解和改进视觉推理问题的解决策略。

数据集最近研究

最新研究方向

在视觉推理领域，VISCO数据集的最新研究方向聚焦于评估和提升大型视觉语言模型（LVLMs）的批判和修正能力。该数据集通过包含1645对问题与模型生成答案的配对，以及5604个逐步骤的批判注释，为研究者提供了一个全面的基准。前沿研究不仅关注模型在视觉推理任务中的表现，更强调其自我改进的能力，即通过批判和修正机制实现性能提升。这一方向的研究对于推动视觉推理技术的发展具有重要意义，尤其是在自动化错误检测和纠正方面，为实现更智能、更可靠的视觉推理系统奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录