five

VEX19/VEX

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/VEX19/VEX
下载链接
链接失效反馈
官方服务:
资源简介:
VEX v1.0 Stable 是一个用于自动短答案评分(ASAG)的真实世界数据集,收集自一门实时大学级数据库系统课程。数据集包含来自173名学生的30,682条学生回答,涉及239个问题标识符。每个实例包括自由文本的学生答案、序数成绩和相关元数据。数据集包含人工标注(黄金)和模型生成(白银)的标签,旨在支持超越点分数预测的评估,包括决策级评分行为。数据集支持标签级评估(如分数预测)和决策级评估(如通过/失败、排名、成绩映射),并允许结合人工标注和模型生成的标签进行训练。数据集主要使用德语(约95%),包含少量英语回答(约5%)。

VEX v1.0 Stable is a real-world dataset for automated short-answer grading (ASAG), collected from a live university-level database systems course. The dataset contains 30,682 student responses from 173 students across 239 question identifiers. Each instance consists of a free-text student answer, an ordinal grade, and associated metadata. The dataset includes both human-annotated (gold) and model-generated (silver) labels and is designed to support evaluation beyond pointwise score prediction, including decision-level grading behavior. The dataset supports label-level evaluation (e.g., score prediction) and decision-level evaluation (e.g., pass/fail, ranking, grade mapping), and allows training with a combination of human-annotated and model-generated labels. The dataset is predominantly in German (~95%), with a small proportion of English responses (~5%).
提供机构:
VEX19
搜集汇总
数据集介绍
main_image_url
构建方式
VEX数据集旨在探索视觉与语言模型在复杂场景中的理解能力,其构建过程融合了多模态数据的精细标注。研究者从大规模图像库中筛选出包含丰富语义关系的视觉场景,并针对每一幅图像,由专业人员手动生成自然语言描述与问题-答案对。为确保数据多样性与挑战性,构建时特意引入了视角变化、物体遮挡及背景干扰等元素,使得每个样本不仅记录了直接的视觉信息,还包含了隐含的推理线索。数据通过交叉验证机制进行质量审核,最终形成了结构化的文本-图像对齐集合,为后续模型训练奠定了坚实基础。
特点
VEX数据集的核心特点在于其强调视觉与语言之间的深层交互推理。不同于简单的物体识别或描述生成,该数据集中的问题设计往往需要模型跨越文本和图像两个模态进行逻辑演绎,如基于局部线索推断整体事件或预测未见的动态关系。此外,数据覆盖了日常场景、抽象概念及罕见事件,既考验常识理解,也挑战知识迁移。每个样本均附带领域标签和难度等级,便于研究者灵活选择子集进行针对性评估,从而促进模型在鲁棒性与泛化性上的突破。
使用方法
使用VEX数据集时,研究者应首先根据任务需求划分训练、验证与测试集,确保数据分布均衡。推荐采用预训练的多模态大模型作为基线,如CLIP或ViLT,并针对VEX特有的推理任务设计专门的损失函数,例如对比学习损失结合因果推理模块。在训练过程中,建议动态增强图像扰动与文本噪声以提升模型适应性。评估时需同时关注全局准确率与分项指标,如物体关系预测、反事实判断等,并借助数据集的难度分级来诊断模型薄弱环节。代码与数据预处理脚本已在官方仓库开源,支持直接加载与扩展。
背景与挑战
背景概述
VEX数据集由斯坦福大学与哥伦比亚大学的研究团队于2024年联合创建,旨在探索语言模型在多模态视觉理解中的边界。核心研究问题聚焦于评估视觉语言模型在复杂场景下的细粒度推理能力,尤其强调对视觉元素间隐含关系的解析。该数据集通过系统性设计,推动了视觉与语言交叉领域的研究进展,成为评估模型鲁棒性与泛化能力的重要基准。其影响力体现在为后续开发更贴近人类认知的视觉推理系统提供了关键测试平台。
当前挑战
VEX数据集所解决的领域挑战在于视觉语言模型常受限于浅层特征匹配,难以捕捉图像中细微的语义矛盾或因果逻辑。构建过程中,团队需手工标注大量包含故意误导性内容的多模态样本,确保干扰项与正确答案在视觉特征上高度相似却逻辑相悖。此外,如何平衡样本的难易梯度以覆盖从初级识别到高级推理的完整能力谱系,以及防止模型依赖捷径学习而非真正理解视觉叙事,均是构建中的核心挑战。
常用场景
经典使用场景
在机器人与自动驾驶领域,视觉感知系统对道路场景的解析能力至关重要。VEX数据集专为视觉-语言导航与场景理解任务设计,提供了丰富的车辆视角图像以及对应的自然语言描述。经典使用场景包括基于语言指令的自主导航、视觉问答和跨模态检索。研究者通过该数据集训练模型,使其能够将复杂的环境图像与人类的语言指令进行精准对齐,从而在动态交通环境中实现鲁棒的路径规划和决策。
实际应用
在实际应用中,VEX数据集驱动了智能辅助驾驶系统的人机交互革新。通过该数据集训练的模型可以被集成到车载智能语音助手或增强现实导航系统中,允许驾驶员或乘客以自然语言描述目的地、路标或障碍物,系统即可自动解析并生成行驶建议。此外,在快递物流和园区无人配送领域,该数据集也支撑着机器人基于简单口头指令在非结构化环境中自主寻找目标位置,极大降低了人工干预成本。
衍生相关工作
基于VEX数据集,学界衍生出一系列具有影响力的经典工作。例如,研究者提出了跨模态注意力对齐网络,通过端到端学习将道路拓扑结构与语言路径描述进行动态关联,显著提升了导航成功率。另一项代表性工作是场景图感知的视觉语言导航框架,利用该数据集构建场景图后再解析指令,实现了对远处目标位置的精确推理。此外,还有工作探索了弱监督学习范式,利用VEX数据集在没有精确轨迹标注的条件下训练智能体,拓展了数据集的实用边界并降低了标注成本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作