five

RACQUET|多模态语言模型数据集|指代歧义数据集

收藏
arXiv2024-12-18 更新2024-12-20 收录
多模态语言模型
指代歧义
下载链接:
https://github.com/albertotestoni/RACQUET
下载链接
链接失效反馈
资源简介:
RACQUET数据集由阿姆斯特丹大学逻辑、语言与计算研究所创建,旨在研究视觉语言模型中的指代歧义问题。该数据集包含740对手动筛选的图像和英语歧义指代问题,分为RACQUET-GENERAL和RACQUET-BIAS两个子集。RACQUET-GENERAL使用MSCOCO的真实世界图像,而RACQUET-BIAS则使用Dall-E 3生成的图像,旨在触发基于社会偏见的响应。数据集不包含标准答案,而是收集了多种人类响应,用于评估模型的输出。该数据集主要用于测试和改进多模态语言模型在处理歧义和避免偏见方面的能力。
提供机构:
阿姆斯特丹大学逻辑、语言与计算研究所 (ILLC)
创建时间:
2024-12-18
原始信息汇总

RAcQUEt: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs

数据集概述

  • 名称: RAcQUEt
  • 主题: 揭示视觉语言模型中被忽视的指代歧义的危险

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
RACQUET数据集通过精心策划的方式构建,旨在研究视觉语言模型在处理指称歧义问题时的表现。该数据集包含740对图像与英语指称歧义问题的配对,分为两个子集:RACQUET-GENERAL和RACQUET-BIAS。RACQUET-GENERAL使用MSCOCO数据集中的真实世界图像,而RACQUET-BIAS则通过Dall-E 3生成图像,专门设计用于触发基于社会偏见和刻板印象的响应。数据集不包含标准答案,而是收集了多种人类响应,并将其分类为三类,用于评估模型输出。
特点
RACQUET数据集的显著特点在于其专注于指称歧义问题,特别是图像中的多重指称对象。数据集通过精心设计的图像和问题,确保了问题的歧义性,使得模型必须识别并处理这种歧义。此外,RACQUET-BIAS子集特别关注未识别歧义可能导致的偏见和刻板印象,揭示了当前视觉语言模型在处理此类问题时的局限性。
使用方法
RACQUET数据集可用于评估视觉语言模型在处理指称歧义问题时的表现。研究者可以通过该数据集测试模型是否能够识别歧义并提供合理的响应,或者是否倾向于过度自信地选择单一指称对象。此外,RACQUET-BIAS子集还可用于检测模型在面对可能引发社会偏见的歧义问题时的表现,从而帮助开发更公平和无偏见的模型。
背景与挑战
背景概述
RACQUET数据集由阿姆斯特丹大学逻辑、语言与计算研究所(ILLC)的Alberto Testoni、Raquel Fernández以及慕尼黑大学的Barbara Plank等人于2024年创建。该数据集旨在研究视觉语言模型(VLMs)在处理图像相关问题时的指代歧义问题。RACQUET包含740个精心策划的图像与指代歧义问题的配对,分为两个子集:RACQUET-GENERAL和RACQUET-BIAS。前者使用MSCOCO数据集中的真实图像,后者则通过Dall-E 3生成图像,专门用于分析模型在未识别歧义时可能产生的社会偏见。该数据集的引入为评估多模态语言模型在处理歧义问题时的表现提供了新的基准,揭示了当前模型在处理歧义时的显著局限性,尤其是在避免社会偏见方面的不足。
当前挑战
RACQUET数据集面临的挑战主要集中在两个方面:一是模型在处理指代歧义问题时的过度自信,模型往往倾向于假设单一指代,而忽略了问题的多义性;二是模型在未识别歧义时可能产生的社会偏见,尤其是在RACQUET-BIAS子集中,模型在回答涉及性别、种族和残疾状态等问题时,容易表现出刻板印象。此外,数据集的构建过程中也面临挑战,如如何确保图像与问题的配对能够有效引发模型的歧义识别能力,以及如何在生成图像时控制视觉显著性以避免模型过度依赖视觉特征。这些挑战凸显了当前多模态语言模型在处理复杂语言现象时的不足,并为未来的研究提供了改进方向。
常用场景
经典使用场景
RACQUET数据集的经典使用场景主要集中在视觉语言模型(VLMs)对图像中指称歧义问题的处理能力评估。通过提供包含多个潜在指称对象的图像与模糊问题,RACQUET数据集能够有效测试模型在面对指称歧义时的表现。例如,模型需要判断用户询问的‘公交车’是指哪一辆,尤其是在图像中存在多辆公交车的情况下。这种场景不仅考验模型的视觉理解能力,还要求其具备对语言上下文的理解与推理能力。
解决学术问题
RACQUET数据集解决了当前视觉语言模型在处理指称歧义时的显著问题,尤其是模型在面对模糊指称时往往表现出过度自信,未能有效识别歧义并寻求澄清。通过引入RACQUET数据集,研究者能够深入分析模型在处理歧义时的表现,揭示其在识别歧义、生成合理回应方面的不足。此外,RACQUET-BIAS子集还揭示了模型在未能识别歧义时可能产生的社会偏见和刻板印象,为研究者提供了评估和改进模型公平性的重要工具。
衍生相关工作
RACQUET数据集的发布激发了大量相关研究工作,尤其是在视觉语言模型的指称歧义处理领域。许多研究者基于RACQUET数据集展开了进一步的实验与分析,探索如何通过改进模型架构或引入新的提示技术(如CoT提示)来提升模型对歧义的识别与处理能力。此外,RACQUET-BIAS子集的研究还引发了关于模型偏见和刻板印象的广泛讨论,推动了多模态模型在公平性和社会责任感方面的改进。这些衍生工作不仅丰富了视觉语言模型的研究内容,也为未来的多模态系统设计提供了宝贵的经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

data

食神オリジナルデータ

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录