VISCO
收藏VISCO 数据集概述
数据集简介
VISCO 是一个用于评估大型视觉语言模型(LVLMs)批判和修正能力的基准数据集。数据集包含以下内容:
- 1645 对问题和 LVLM 生成的答案。每个答案包含一个带有多个推理步骤的思维链。
- 5604 个步骤级的批判标注,显示每个步骤是否正确,如果不正确,则提供自然语言解释。
数据结构
数据集的每个数据点包含以下字段:
id: 数据点的唯一标识符。question: 问题文本。image: 图像的 Base64 编码表示。label: 问题的正确答案。response: LVLM 生成的答案,包含思维链 (reasoning) 和最终答案 (answer)。answer_correctness: 最终答案的正确性(布尔值)。reasoning_correctness: 每个推理步骤的正确性(布尔值列表)。reasoning_critic: 每个推理步骤的自然语言批判(字符串列表)。meta_data: 包含数据点的元数据,如批判的超技能、技能、源数据集和源模型等信息。
数据下载
数据集可以从 Hugging Face 下载。由于数据类型的多样性,Hugging Face 的数据集查看器可能无法正常工作,建议使用 browse-data.ipynb 浏览数据。
数据示例
以下是一个数据点的 JSON 表示示例: json { "id": "test1||Reasoning||Math||MathVista||5", "question": "What is the center of symmetry of this function? Choices: (A) (0, 0) (B) (-1, 0) (C) (2, 0)", "image": "IMAGE_BASE64_REPR", "label": "(0, 0)", "response": { "reasoning": [ "A function with a center of symmetry at a point (a, b) implies the graph of the function is symmetric when rotated 180 degrees about this point.", "Observing the graph, it appears that this symmetry exists around the point (2, 0).", "Points on opposite sides of (2, 0) have values equidistant from this center, confirming symmetry around this point." ], "answer": "(2, 0)" }, "answer_correctness": false, "reasoning_correctness": [true, false, false], "reasoning_critic": [ ["", "", ""], ["The symmetry exists around (0, 0), not (2, 0).", "SECOND_REFERENCE", "THIRD_REFERENCE"], ["Points on opposite sides of (2, 0) do not have values equidistant from this center.", "SECOND_REFERENCE", "THIRD_REFERENCE"], ], "meta_data": { "critic_superskill": "Reasoning", "critic_skill": "Math", "src_dataset": "MathVista", "src_model": "GPT-4o", ... } }
数据集特点
- 批判标注:包含最终答案的正确性、每个推理步骤的正确性以及每个步骤的自然语言批判。
- 多参考标注:每个步骤的批判由三个不同的标注者提供,所有参考都被用于最终评估。
- 自然语言批判:仅对不正确的步骤提供自然语言批判。




