RefCOCO-Triplets
收藏数据集卡片:RefCOCO Triplets
数据集概述
该数据集包含使用ChatGPT从RefCOCO/+/g数据集的引用表达(字幕)中分解出的三元组(主体,谓词,客体)的注释。
数据集详情
数据集描述
- 创建者: Zeyu Han
- 语言: 英语
- 许可证: cc-by-4.0
数据集来源
- 仓库: https://github.com/Show-han/Zeroshot_REC
- 论文: Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions
用途
理解视觉关系对于解决引用表达理解至关重要。该数据集使用ChatGPT注释RefCOCO/+/g的字幕,将其分解为多个(主体,谓词,客体)三元组。这些三元组表示字幕中主体和谓词(如果有)之间的关系、动作和空间位置。这些信息可用于后续的视觉关系建模。
数据集结构
数据集字段描述如下: json {"<image_file_name>_<sentence_id>": {"entity": "<事件的主要参与者>", "relations": [[<subject>, <predicate>, <object>]]}}
<image_file_name>_<sentence_id>遵循ReCLIP的数据格式。
数据集创建
我们在GitHub仓库中提供了使用ChatGPT生成注释的代码和提示。
引用
如果您发现此数据集有用,请引用以下论文: bibtex @inproceedings{han2024zero, title={Zero-shot referring expression comprehension via structural similarity between images and captions}, author={Han, Zeyu and Zhu, Fangrui and Lao, Qianru and Jiang, Huaizu}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={14364--14374}, year={2024} }
数据集卡片联系
电子邮件:Zeyu Han




