CLEVR-Dialog
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CLEVR-Dialog
下载链接
链接失效反馈官方服务:
资源简介:
CLEVR-Dialog 是一个大型诊断数据集,用于研究视觉对话中的多轮推理。具体来说,作者构建了一个对话语法,该语法基于来自 CLEVR 数据集的图像的场景图。这种组合产生了一个数据集,其中视觉对话的所有方面都被完全注释。 CLEVR-Dialog 总共包含 5 个 10 轮对话实例,用于大约 85k CLEVR 图像,总计 425 万对问答对。 CLEVR-Dialog 用于对标准视觉对话模型的性能进行基准测试;特别是关于视觉共指分辨率(作为共指距离的函数)。这是对视觉对话模型的第一次此类分析,如果没有这个数据集是不可能的。 CLEVR-Dialog 旨在帮助为视觉对话的未来模型的开发提供信息。
CLEVR-Dialog is a large-scale diagnostic dataset dedicated to researching multi-turn reasoning in visual dialogue. Specifically, the authors constructed a dialogue grammar based on the scene graphs of images from the CLEVR dataset. This combination results in a dataset where all aspects of visual dialogue are fully annotated. CLEVR-Dialog contains a total of 5 ten-turn dialogue instances for approximately 85,000 CLEVR images, amounting to 4.25 million question-answer (QA) pairs overall. The dataset is used to benchmark the performance of standard visual dialogue models, especially regarding visual coreference resolution as a function of coreference distance. This represents the first such analysis of visual dialogue models, which would have been impossible without this dataset. CLEVR-Dialog is designed to help inform the development of future visual dialogue models.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

背景与挑战
背景概述
CLEVR-Dialog是一个基于CLEVR图像场景图构建的大型视觉对话数据集,包含85k图像和425万问答对,专门用于多轮推理研究和视觉对话模型的性能基准测试,特别是视觉共指分辨率分析。
以上内容由遇见数据集搜集并总结生成



