five

zjr2000/REVERIE

收藏
Hugging Face2024-07-06 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/zjr2000/REVERIE
下载链接
链接失效反馈
官方服务:
资源简介:
REVERIE是第一个大规模视觉指令调优数据集,包含反射性理性注释。该数据集通过Gemini-1.0-Vision-Pro API收集,包含71,558张自然图像,其中50,938张来自Visual Genome,15,706张来自COCO,4,914张来自ScienceQA。数据集包含115,280条指令,对应正负响应及反射性理性注释,总计254,177个训练实例。数据集覆盖了四种视觉语言任务类型,包括多项选择问答、简答问答、开放式问答和是/否问题。

REVERIE is the first large-scale visual instruction-tuning dataset with ReflEctiVE RatIonalE annotations. It comprises 115k machine-generated reasoning instructions, each meticulously annotated with a corresponding pair of correct and confusing responses, alongside comprehensive rationales elucidating the justification behind the correctness or erroneousness of each response. The data collection was conducted through the Gemini-1.0-Vision-Pro API. The dataset includes 71,558 natural images from Visual Genome, COCO, and ScienceQA. It contains 115,280 instructions paired with corresponding positive responses, and 138,897 negative responses, where each response is supplemented with a reflective rationale, rendering a total of 254,177 training instances. REVERIE covers four types of vision-language tasks, including multiple-choice QA, short-answer QA, open-ended QA, and Yes/No questions.
提供机构:
zjr2000
原始信息汇总

数据集卡片:REVERIE

数据集详情

数据集类型: REVERIE 是首个大规模视觉指令调优数据集,带有反射性理性注释。REVERIE 包含 115k 机器生成的推理指令,每个指令都经过精心注释,配有一对正确和混淆的响应,并附有详细的理性说明,解释每个响应的正确性或错误性的理由。

数据收集: REVERIE 通过提示 Gemini-1.0-Vision-Pro API 收集。

统计数据: REVERIE 数据集包含 71,558 张自然图像。其中包括来自 Visual Genome 的 50,938 张图像,来自 COCO 的 15,706 张图像,以及来自 ScienceQA 的 4914 张图像。REVERIE 包含 115,280 条指令及其对应的正面响应,以及 138,897 条负面响应,每个响应都附有反射性理性说明,总计 254,177 个训练实例。REVERIE 涵盖四种视觉语言任务,包括多项选择 QA、简答 QA、开放式 QA 和是/否问题。

数据集结构

json { "id": IMAGE_ID, "image": IMAGE_FILE_NAME, "conversations": [ { "from": "human", "value": QUESTION, }, { "from": "gpt", "value": RESPONSE, }, { "from": "human", "value": RATIONALE PROMPT, }, { "from": "gpt", "value": POSITIVE/NEGATIVE RATIONALE } ] }

许可证: Creative Commons Attribution Non Commercial 4.0;并应遵守 Gemini API 的条款:https://ai.google.dev/gemini-api/terms

搜集汇总
数据集介绍
main_image_url
构建方式
REVERIE数据集的构建,以大规模视觉指令微调为核心,采用RefleEctiVE RatIonalE注释方法,精心设计了115k个机器生成的推理指令。每一指令均伴有一对正确和混淆的回答,并辅以详尽的理性说明,阐释每一回答的正确性与否。数据收集过程中,通过Gemini-1.0-Vision-Pro API进行指令提示,整合了Visual Genome、COCO及ScienceQA等多个来源的图像资源,形成了包含71,558自然图像的丰富数据集。
特点
该数据集的特点在于其规模宏大,首次提供了大规模的视觉指令微调数据,并且每条指令都配有一对正负回答及对应的反思性说明。这样的设计不仅提供了充足的训练实例,总数达到254,177,而且覆盖了视觉语言任务中的多种类型,如多项选择题、简答题、开放式问题及是非题,为视觉理解与推理研究提供了全面的支持。
使用方法
使用REVERIE数据集时,研究者可以依据其JSON格式结构,轻松访问图像ID、图像文件名以及包含问题、回答和理性说明的对话。遵循Creative Commons Attribution Non Commercial 4.0许可协议,同时需遵守Gemini API的使用条款。该数据集适用于视觉理解、自然语言处理等领域的研究,有助于推动相关技术的进步与发展。
背景与挑战
背景概述
在视觉问答领域,REVERIE数据集的诞生标志着对大规模视觉指令微调的深入探索。该数据集由Gemini-1.0-Vision-Pro API的提示生成,并由人类标注者精心注释,旨在通过RefleEctiVE RatIonalE注释提供深度理解与推理能力的训练资源。自推出以来,REVERIE数据集凭借其独特的指令-响应-理性注释结构,为视觉语言任务处理的研究提供了重要支撑,对促进视觉问答技术的发展具有显著影响。该数据集汇集了71,558张自然图像,涵盖了多种视觉语言任务类型,并在2023前由专业团队维护与更新。
当前挑战
尽管REVERIE数据集为研究领域提供了丰富的资源,但其构建过程中亦面临诸多挑战。首先,如何确保机器生成的推理指令既具有多样性又保持准确性,是一大难题。其次,对于每个响应的反射性理性注释,需要大量的人力进行细致标注,这不仅耗时且成本高昂。此外,数据集在覆盖视觉语言任务的多样性方面虽有所努力,但在实际应用中仍可能面临新的领域问题和挑战,如何提升其泛化能力,亦是当前研究的焦点之一。
常用场景
经典使用场景
在视觉问答领域,REVERIE数据集以其独特的指令微调与反思性标注机制,成为研究的热点。该数据集的典型使用场景在于,研究者可利用其提供的机器生成的推理指令和对应的正确及混淆响应,进行深度学习模型的训练与评估,以期提升模型在复杂视觉问题理解与回答方面的能力。
解决学术问题
REVERIE数据集解决了视觉问答中模型推理能力不足的问题。通过为每个问题提供详细的反思性理由,它帮助研究者理解模型决策过程,进而优化模型以更好地处理模糊性或复杂性较高的视觉问题,推动视觉语言理解的学术研究进展。
衍生相关工作
REVERIE数据集催生了一系列相关研究,如针对视觉推理的增强模型设计、反思性标注的自动化方法研究,以及多模态学习中的指令微调策略等。这些工作进一步扩展了REVERIE数据集的影响,为视觉语言处理领域带来了新的研究视角和技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作