WebQA
收藏github2024-07-08 更新2024-07-09 收录
下载链接:
https://github.com/JUNJIE99/VISTA_Evaluation
下载链接
链接失效反馈官方服务:
资源简介:
在我们的评估过程中,我们利用了WebQA数据集中的所有候选对象构建了我们的语料库,这些候选对象包括训练集和验证集中的文本和图像-文本对。为了确保结果的准确性,我们对所有候选对象进行了去重处理。对于纯文本候选对象,我们确保每个唯一的文本在语料库中只出现一次。对于图像-文本候选对象,我们也进行了去重处理,标准是图像ID和相关文本必须相同。因此,共享相同图像ID但具有不同文本的候选对象被保留为不同的候选对象。
During our evaluation process, we constructed our corpus using all candidate instances from the WebQA dataset, which include both text-only and image-text pairs from the training and validation splits. To ensure the accuracy of our results, we performed deduplication on all candidate instances. For text-only candidates, we ensured that each unique text appears exactly once in the corpus. For image-text candidates, we also applied deduplication, with the criterion that both the image ID and the associated text must be identical. Thus, candidates that share the same image ID but have different texts are retained as distinct instances.
创建时间:
2024-07-08
原始信息汇总
VISTA_Evaluation 数据集概述
数据集描述
VISTA_Evaluation 数据集用于零样本多模态检索任务的评估。该数据集是 ACL 2024 论文 VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval 中结果复现的一部分。
数据集内容
- WebQA 数据集: 包含训练集和验证集中的所有候选数据,包括纯文本和图文候选数据。数据集进行了去重处理,确保每个唯一的文本和图文候选数据在语料库中只出现一次。
使用方法
- 下载 WebQA 数据集: 可以从 Hugging Face 下载。
- 配置和运行评估代码:
- 克隆 FlagEmbedding 仓库。
- 将 webqa/BGE_M3 目录中的所有文件放置在
./FlagEmbedding/Visual目录下。 - 在
eval_webqa.py中配置模型权重、图像目录和.jsonl文件的路径,然后运行eval_webqa.py。
结果指标
- 混合语料库召回率@5 (Hybrid Corpus Recall@5): 论文中对应的结果指标。
搜集汇总
数据集介绍

构建方式
WebQA数据集的构建基于WebQA数据集中的所有候选者,包括训练集和验证集。这些候选者分为纯文本和图文两种形式。为确保数据集的准确性和唯一性,实施了去重操作。对于纯文本候选者,确保每条文本在语料库中仅出现一次。对于图文候选者,去重的标准是图像ID和相关文本必须完全相同,即使图像ID相同但文本不同,也视为不同候选者。
特点
WebQA数据集的特点在于其包含了丰富的图文信息,适用于多模态检索任务。数据集的去重机制确保了候选者的唯一性,提高了检索结果的准确性。此外,数据集的构建方式使其适用于零样本评估设置,为研究者提供了在无监督环境下测试模型性能的机会。
使用方法
使用WebQA数据集进行评估时,首先从Hugging Face下载数据集,然后克隆FlagEmbedding仓库,并将相关文件放置在指定目录。接着,配置模型权重、图像目录和.jsonl文件的路径,运行eval_webqa.py脚本。最终结果将显示在论文中提到的混合语料库召回率@5。对于微调任务,参考提供的bash脚本配置训练参数,注意在Stage2训练阶段使用多任务交替训练方法,并确保dataloader_num_worker设置为1。
背景与挑战
背景概述
WebQA数据集是由周俊杰等人于2024年创建,旨在支持多模态检索任务的研究。该数据集的核心研究问题是如何在零样本设置下,通过视觉和文本嵌入实现高效的通用多模态检索。WebQA的构建不仅丰富了多模态检索领域的数据资源,还为相关研究提供了新的基准,推动了多模态学习技术的发展。
当前挑战
WebQA数据集在构建过程中面临的主要挑战包括数据的去重处理和多任务交替训练的复杂性。数据去重确保了文本和图像候选集的唯一性,而多任务交替训练则要求精确配置训练参数,以避免代码运行中的错误。此外,该数据集在零样本评估设置下的表现也受到关注,特别是在混合语料库召回率方面的性能,这直接影响到其在实际应用中的有效性。
常用场景
经典使用场景
WebQA数据集在多模态检索领域中被广泛应用于零样本评估场景。通过整合WebQA数据集中的文本和图像候选,研究者构建了一个包含文本和图像的多模态语料库。在此基础上,数据集被用于评估视觉文本嵌入模型(如VISTA)在零样本设置下的表现,特别是通过计算混合语料库的召回率@5来衡量模型的性能。
解决学术问题
WebQA数据集解决了多模态检索中的关键学术问题,即如何在零样本设置下有效评估和优化视觉文本嵌入模型。通过提供一个包含文本和图像的多模态语料库,WebQA数据集使得研究者能够更准确地评估模型在未见数据上的泛化能力,从而推动了多模态检索技术的发展。
衍生相关工作
基于WebQA数据集,研究者开发了多种视觉文本嵌入模型,如VISTA,这些模型在多模态检索任务中表现出色。此外,WebQA数据集还促进了多任务交替训练方法的研究,特别是在多模态数据处理中的应用。这些衍生工作不仅提升了模型的性能,也为多模态数据处理领域提供了新的研究方向和方法论。
以上内容由遇见数据集搜集并总结生成



