VIVA
收藏arXiv2024-07-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.03000v1
下载链接
链接失效反馈官方服务:
资源简介:
VIVA数据集由香港理工大学和凯斯西储大学联合创建,专注于基于视觉的情境决策,特别强调人类价值观的融入。该数据集包含1062张描绘多样化现实情境的图像,每张图像都附有手动标注的决策及其背后的人类价值观和理由。数据集的创建过程涉及图像收集、多步骤标注及质量验证。VIVA数据集主要应用于评估和提升视觉语言模型在复杂社会情境中的决策能力,特别是在考虑人类价值观的前提下,旨在推动人工智能向更具社会责任感和人类中心的方向发展。
The VIVA dataset was co-created by The Hong Kong Polytechnic University and Case Western Reserve University, focusing on vision-based contextual decision-making with a particular emphasis on the integration of human values. This dataset contains 1062 images depicting diverse real-world scenarios, each paired with manually annotated decisions, along with the underlying human values and justifications for those decisions. The construction of the VIVA dataset involves image collection, multi-step annotation, and quality validation. Primarily, the VIVA dataset is utilized to evaluate and enhance the decision-making capabilities of vision-language models in complex social contexts, especially under the premise of considering human values, aiming to promote the development of artificial intelligence towards a more socially responsible and human-centric direction.
提供机构:
香港理工大学 2凯斯西储大学
创建时间:
2024-07-03
搜集汇总
数据集介绍

构建方式
VIVA数据集的构建过程首先从构思各种文本情境描述开始,利用GPT生成多样化的情境描述。接着,通过图像搜索收集与描述相符的图像。然后,人类标注员与GPT合作,为每个任务编写和验证组件,以确保数据质量。最后,对每个样本进行质量检查,确保其正确性和可靠性。
使用方法
VIVA数据集的使用方法包括两个层面的任务。第一层面的任务是在给定的图像情境下,从干扰项中选择最合适的行动。第二层面的任务则要求模型阐述之前选择的行动背后的潜在人类价值观和理由。通过这两个层面的任务,可以评估模型在视觉情境决策中的能力。
背景与挑战
背景概述
VIVA数据集是香港理工大学和凯斯西储大学的研究人员于2024年创建的,旨在评估视觉语言模型在人类价值观驱动的情境决策方面的能力。该数据集包含1,062张描绘不同现实世界场景的图像,以及基于这些图像的手动标注的决策。VIVA数据集的创建是为了解决当前视觉语言模型在利用人类价值观进行多模态决策方面的局限性,并为未来人工智能的发展提供重要的研究方向。该数据集对相关领域的影响力主要体现在推动了视觉语言模型在考虑社会层面人类价值观的决策能力方面的研究。
当前挑战
VIVA数据集面临的挑战主要包括:1) 视觉语言模型在理解和利用人类价值观进行情境决策方面的能力不足;2) 构建过程中遇到的挑战,如如何确保图像和标注的质量,以及如何有效地利用大型语言模型进行数据标注等。
常用场景
经典使用场景
VIVA 数据集被设计用于评估视觉语言模型(VLMs)在处理真实世界场景时的决策能力,特别是考虑人类价值观。该数据集包含 1,062 张描绘不同现实场景的图片和基于这些场景的手动标注决策。在给定一张图片的情况下,模型需要选择最合适的行动来应对场景,并提供相关的人类价值观和决策背后的理由。
解决学术问题
VIVA 数据集解决了 VLMs 在使用人类价值观进行多模态决策方面的局限性。通过引入人类价值观作为决策依据,该数据集促使模型在理解场景和人类价值观方面进行深入的多模态理解。进一步的分析表明,利用行动后果和预测的人类价值观具有潜在的好处。
实际应用
VIVA 数据集的实际应用场景包括但不限于智能机器人、自动驾驶汽车和智能家居系统。在这些应用中,VIVA 数据集可以帮助模型更好地理解人类价值观,并在实际决策中考虑到这些价值观,从而实现更人性化的交互和服务。
数据集最近研究
最新研究方向
VIVA数据集的提出,标志着视觉语言模型(VLMs)在决策过程中融入人类价值观的前沿研究方向。该数据集包含1062张描绘多样现实场景的图像,以及基于这些场景的手动标注决策。VIVA旨在评估VLMs在利用人类价值观进行多模态决策方面的能力。实验结果表明,VLMs在使用人类价值观进行多模态决策方面存在局限性。进一步分析表明,利用行动后果和预测的人类价值观可能带来潜在益处。这一研究对于开发具有社会责任感和以人为本的AI具有重要意义,并有助于推动通用人工智能(AGI)的发展。
相关研究论文
- 1VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values香港理工大学 2凯斯西储大学 · 2024年
以上内容由遇见数据集搜集并总结生成



