HAERAE-VISION

github2026-01-13 更新2026-01-14 收录

下载链接：

https://github.com/HAE-RAE/HAERAE-VISION

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括两种问题类型：原始问题（未明确、真实的用户查询）和明确问题（带有完整上下文的澄清查询）。两者共享相同的图像和参考答案，允许对查询未明确性进行受控评估。注意：此公共数据集包含完整基准的25%（165个项目）用于开发和测试。

This dataset contains two types of questions: original questions (unclear, authentic user queries) and clarified questions (clarified queries with complete context). The two types share identical images and reference answers, enabling controlled evaluation of query ambiguity. Note: This public dataset includes 25% of the full benchmark (165 items) for development and testing.

创建时间：

2026-01-07

原始信息汇总

HAERAE-VISION 数据集概述

数据集基本信息

数据集名称：HAERAE-VISION
核心定位：一个包含现实世界、未充分说明问题的韩语视觉问答（VQA）基准数据集。
相关论文：What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
数据集地址：HAERAE-HUB/HAERAE-VISION
官方排行榜：https://board.haerae.world/

数据集内容与结构

问题类型：包含两种问题类型。
- original：未充分说明的、真实的用户查询。
- explicit：带有完整上下文的、经过澄清的查询。
数据关系：两种类型的问题共享相同的图像和参考答案，以便对查询的未充分说明性进行受控评估。
公开数据规模：当前公开的数据集包含完整基准测试的25%（共165个项目），用于开发和测试。

评估流程

评估过程分为两个阶段。

第一阶段：生成模型响应

脚本：main.py
目的：使用指定模型对数据集问题进行推理并生成回答。
关键参数：
- --engine：推理引擎，可选 vllm 或 litellm。
- --model：模型名称，支持多种云端或本地模型。
- --question-type：问题类型，可选 original 或 explicit（默认 original）。
- --output：输出CSV文件路径。
API密钥要求：仅在使用云端模型（如GPT、Claude、Gemini等）时需要；使用本地vLLM模型则不需要。

第二阶段：使用评判模型进行评分

脚本：score.py
目的：使用评判模型（默认GPT-5-mini）对第一阶段生成的响应进行评估和打分。
关键参数：
- --input：第一阶段生成的CSV文件路径。
- --output：包含评分结果的输出CSV文件路径。
- --model：评判模型（默认 gpt-5-mini）。
API密钥要求：必须设置 OPENAI_API_KEY 以供评判模型使用。

输出格式

第一阶段输出 (`main.py`)

包含所有数据集字段（如 question_original, question_explicit, images 等），并新增：

response：模型生成的答案。
question_type：使用的问题类型。
question_used：实际使用的问题文本。

第二阶段输出 (`score.py`)

包含第一阶段的所有字段，并新增：

judge_response：评判模型的详细评估内容。
score：最终得分（范围0.0至1.0）。

排行榜提交

如需将模型提交至官方排行榜进行完整测试集评估：

访问 HAERAE-VISION 排行榜。
登录账户。
点击 提交 (제출하기) 按钮。
按照提交说明操作。

引用

如需引用，请使用提供的BibTeX条目。

联系方式

数据集相关：Dasol Choi (dasolchoi@yonsei.ac.kr)
排行榜相关：Guijin Son (spthsrbwls123@yonsei.ac.kr)

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，HAERAE-VISION数据集通过精心设计的双问题类型结构，构建了一个专注于韩语视觉问答的基准测试。该数据集的核心构建理念源于对现实世界中用户查询不完整性（under-specification）的深入观察，旨在量化其对模型性能的影响。其构建过程首先收集了真实的、语境信息不完整的用户原始查询，并针对每一条原始查询，人工生成了包含完整背景信息的明确版本。这两种问题类型共享相同的图像和标准答案，从而形成了一个受控的实验环境，使得研究者能够精确地分离并评估查询不完整性这一单一变量对模型输出的影响。目前公开的版本包含了完整基准测试的25%，共计165个样本，专为开发和初步测试而设计。

特点

HAERAE-VISION数据集最显著的特点在于其对“查询不完整性”这一现实挑战的系统性捕捉与解构。数据集并非简单地提供图像-问题对，而是创造性地将每个数据点拆解为“原始”与“明确”两种问题形态。“原始”问题忠实地保留了用户初始提问时可能存在的模糊、省略或依赖隐含知识的特性，模拟了真实交互场景中的信息缺口。而“明确”问题则通过人工补充所有必要背景信息，构成了一个信息完备的理想参照。这种镜像式的双问题设计，使得该数据集超越了传统视觉问答基准的范畴，转变为一个能够诊断模型在信息不完整条件下推理脆弱性的精密工具，为理解模型对语境依赖的敏感度提供了独特视角。

使用方法

使用HAERAE-VISION数据集进行评估遵循一个清晰的两阶段流程，旨在系统化地衡量模型在面对不完整查询时的表现。第一阶段为推理生成，用户通过执行`main.py`脚本，指定推理引擎（如`litellm`或本地`vllm`）、目标模型（支持云端API模型及本地部署模型）以及问题类型（`original`或`explicit`），从而得到模型对数据集中问题的回答，结果将保存为CSV文件。第二阶段为评分判读，通过运行`score.py`脚本，利用一个预设的评判模型（默认为GPT-5-mini）对第一阶段生成的回答进行自动化评估，该评判模型会分析模型回答与标准答案的一致性，并输出一个介于0.0到1.0之间的量化分数。完整的评估结果可提交至官方排行榜，参与在完整测试集上的正式评测。

背景与挑战

背景概述

HAERAE-VISION 数据集由韩国延世大学等机构的研究团队于2026年构建，旨在探索视觉-语言模型在处理现实世界中不完整或模糊查询时的局限性。该数据集聚焦于韩语视觉问答任务，其核心研究问题在于评估模型如何应对用户提问中常见的隐含与未明确信息，即“未充分指定查询”现象。通过提供原始模糊问题与经过人工澄清的明确问题对照，该数据集为衡量模型在真实交互场景下的推理与上下文理解能力提供了严谨的基准，对推动多模态人工智能在非英语环境及开放域应用中的稳健性发展具有重要影响。

当前挑战

该数据集致力于解决视觉问答领域中因查询信息不足而导致的模型性能瓶颈挑战，具体表现为模型需在缺乏完整上下文的情况下，准确解读图像内容并生成可靠答案。在构建过程中，研究团队面临双重挑战：一是如何从真实用户交互中系统性地收集并标注具有代表性的模糊查询，确保其反映实际应用场景的复杂性；二是设计有效的对照实验结构，即创建语义等价但信息完备的“明确问题”版本，以隔离并量化查询模糊性对模型性能的具体影响，这需要精细的语义分析与质量控制。

常用场景

经典使用场景

在视觉-语言模型评估领域，HAERAE-VISION数据集以其独特的韩语视觉问答设计，为研究者提供了经典的使用场景。该数据集通过对比原始模糊查询与明确查询下的模型表现，系统性地评估模型在真实世界信息不完整情境下的推理能力。这种对照实验设计使得研究者能够精确量化查询模糊性对模型性能的影响，从而深入探究视觉-语言模型在处理用户自然表达时的局限性。

实际应用

在实际应用层面，HAERAE-VISION数据集对开发面向韩语用户的智能视觉助手具有重要价值。例如，在电子商务、社交媒体内容理解或教育辅助工具中，用户常以简略模糊的方式描述视觉内容。基于该数据集的评估能够指导模型优化，提升其在处理真实世界模糊查询时的准确性和可靠性。这直接关系到多模态人工智能产品在韩语市场的用户体验和落地效果，为产业界提供了关键的模型选型与改进依据。

衍生相关工作

围绕HAERAE-VISION数据集，学术界已衍生出多项经典研究工作。这些工作主要集中于开发针对模糊查询的模型增强方法，例如通过上下文补全、多轮对话澄清或不确定性建模来提升模型性能。同时，该数据集也激发了跨语言模糊性研究的扩展，促使研究者构建类似的中文、英文多模态评估基准。这些衍生工作共同深化了对视觉-语言模型交互机制的理解，并推动了面向真实场景的模型评估框架的标准化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集