VISCO|视觉语言模型数据集|模型评估数据集
收藏VISCO 数据集概述
数据集简介
VISCO 是一个用于评估大型视觉语言模型(LVLMs)批判和修正能力的基准数据集。数据集包含以下内容:
- 1645 对问题和 LVLM 生成的答案。每个答案包含一个带有多个推理步骤的思维链。
- 5604 个步骤级的批判标注,显示每个步骤是否正确,如果不正确,则提供自然语言解释。
数据结构
数据集的每个数据点包含以下字段:
id
: 数据点的唯一标识符。question
: 问题文本。image
: 图像的 Base64 编码表示。label
: 问题的正确答案。response
: LVLM 生成的答案,包含思维链 (reasoning
) 和最终答案 (answer
)。answer_correctness
: 最终答案的正确性(布尔值)。reasoning_correctness
: 每个推理步骤的正确性(布尔值列表)。reasoning_critic
: 每个推理步骤的自然语言批判(字符串列表)。meta_data
: 包含数据点的元数据,如批判的超技能、技能、源数据集和源模型等信息。
数据下载
数据集可以从 Hugging Face 下载。由于数据类型的多样性,Hugging Face 的数据集查看器可能无法正常工作,建议使用 browse-data.ipynb
浏览数据。
数据示例
以下是一个数据点的 JSON 表示示例: json { "id": "test1||Reasoning||Math||MathVista||5", "question": "What is the center of symmetry of this function? Choices: (A) (0, 0) (B) (-1, 0) (C) (2, 0)", "image": "IMAGE_BASE64_REPR", "label": "(0, 0)", "response": { "reasoning": [ "A function with a center of symmetry at a point (a, b) implies the graph of the function is symmetric when rotated 180 degrees about this point.", "Observing the graph, it appears that this symmetry exists around the point (2, 0).", "Points on opposite sides of (2, 0) have values equidistant from this center, confirming symmetry around this point." ], "answer": "(2, 0)" }, "answer_correctness": false, "reasoning_correctness": [true, false, false], "reasoning_critic": [ ["", "", ""], ["The symmetry exists around (0, 0), not (2, 0).", "SECOND_REFERENCE", "THIRD_REFERENCE"], ["Points on opposite sides of (2, 0) do not have values equidistant from this center.", "SECOND_REFERENCE", "THIRD_REFERENCE"], ], "meta_data": { "critic_superskill": "Reasoning", "critic_skill": "Math", "src_dataset": "MathVista", "src_model": "GPT-4o", ... } }
数据集特点
- 批判标注:包含最终答案的正确性、每个推理步骤的正确性以及每个步骤的自然语言批判。
- 多参考标注:每个步骤的批判由三个不同的标注者提供,所有参考都被用于最终评估。
- 自然语言批判:仅对不正确的步骤提供自然语言批判。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
Titanic Dataset
Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics
kaggle 收录