MixBench-nips

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/mixed-modality-search/MixBench-nips

下载链接

链接失效反馈

官方服务：

资源简介：

MixBench是一个用于评估跨文本、图像和多模态文档检索的基准。它旨在测试检索模型处理涉及不同模态（如纯文本、纯图像和组合的图像+文本输入）的查询和文档的能力。MixBench包括四个子集，每个子集来自不同的数据源：MSCOCO、Google_WIT、VisualNews和OVEN。每个子集包含查询文件、混合语料库文件、相关查询-文档对列表和原始语料库文件。该基准支持多种检索设置，包括单模态到多模态和跨模态搜索。

创建时间：

2025-05-24

原始信息汇总

MixBench-nips 数据集概述

基本信息

许可证: MIT
数据集名称: MixBench
任务类别: 文本排序 (text-ranking)
任务ID: 文档检索 (document-retrieval)
语言: 英语 (en)
多语言性: 单语言 (monolingual)
注释创建者: 机器生成 (machine-generated)
数据集创建者: Binxu Li 等 (Binxu Li et al.)

数据集特性

特征:
- query_id: 字符串 (string)
- query_text: 字符串 (string)
- query_image: 字符串 (string)
- corpus_id: 字符串 (string)
- corpus_text: 字符串 (string)
- corpus_image: 字符串 (string)
- score: 整数 (int32)

配置

MSCOCO:
- 数据文件: MSCOCO/*
Google_WIT:
- 数据文件: Google_WIT/*
VisualNews:
- 数据文件: VisualNews/*
OVEN:
- 数据文件: OVEN/*

数据集描述

MixBench 是一个用于评估跨文本、图像和多模态文档检索的基准测试。它旨在测试检索模型如何处理跨越不同模态的查询和文档，例如纯文本、纯图像和组合的图像+文本输入。

MixBench 包含四个子集，每个子集来自不同的数据源:

MSCOCO
Google_WIT
VisualNews
OVEN

每个子集包含:

queries.jsonl: 每个条目包含 query_id、text 和/或 image
mixed_corpus.jsonl: 每个条目包含 corpus_id、text 或 image 或多模态文档 (text 和 image)
qrels.tsv: 一个制表符分隔的相关查询-文档对列表 (query_id, corpus_id, score=1)
corpus.jsonl: 原始语料库

该基准测试支持多种检索设置，包括单模态到多模态和跨模态搜索。

加载示例

python from datasets import load_dataset

加载 MSCOCO 子集

ds_query = load_dataset("andy0207/mixbench", name="MSCOCO", split=query) ds_corpus = load_dataset("andy0207/mixbench", name="MSCOCO", split=mixed_corpus) ds_query = load_dataset("andy0207/mixbench", name="MSCOCO", split=qrel)

加载其他子集 (corpus)

ds_gwit = load_dataset("andy0207/mixbench", name="Google_WIT", split=mixed_corpus) ds_news = load_dataset("andy0207/mixbench", name="VisualNews",split=mixed_corpus) ds_oven = load_dataset("andy0207/mixbench", name="OVEN", split=mixed_corpus)

搜集汇总

数据集介绍

构建方式

在跨模态检索研究领域，MixBench-nips数据集的构建体现了系统化的工程思维。该数据集整合了MSCOCO、Google_WIT、VisualNews和OVEN四个知名视觉语言数据集，通过自动化流程生成标准化的查询文档对。每个子集均包含三个核心文件：查询文件记录带有唯一标识的文本或图像查询，混合语料库文件存储多模态文档，相关性文件则通过机器标注方式建立查询与文档的匹配关系。这种模块化设计既保留了原始数据特性，又构建了统一的评估框架。

使用方法

对于希望使用MixBench-nips的研究者，可通过HuggingFace数据集库快速加载特定子集。加载时需要指定子集名称和切分类型，例如调用MSCOCO子集的查询集时需设置split参数为'query'，混合语料库则对应'mixed_corpus'。评估流程需同步加载查询集、语料库和相关性文件，通过计算模型检索结果与qrels文件中标注的相关文档之间的指标来量化性能。这种模块化加载方式支持灵活的组合实验，例如跨子集的零样本检索测试，为多模态检索研究提供标准化实验范式。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，混合模态检索成为信息检索领域的前沿课题。MixBench数据集由Binxu Li等人于2024年构建，旨在系统评估模型在文本、图像及图文混合文档间的跨模态检索能力。该基准整合了MSCOCO、Google_WIT、VisualNews和OVEN四大权威子集，通过结构化查询语料库和相关性标注，为多模态表示学习与检索对齐研究提供了标准化评估框架，显著推动了跨模态语义理解技术的发展。

当前挑战

混合模态检索需解决模态鸿沟与语义对齐的核心难题，即如何在不同模态数据间建立统一语义空间。数据集构建面临多重挑战：其一，需平衡不同来源数据的分布差异，如MSCOCO的视觉焦点与VisualNews的新闻语境；其二，机器生成标注需克服多模态文档粒度不一致问题，例如图文配对噪声与跨模态相关性判定的模糊性；其三，支持从单模态到多模态的九种检索场景，要求基准具备严格的负采样策略与评估指标鲁棒性。

常用场景

经典使用场景

在跨模态检索研究领域，MixBench-nips作为评估基准，主要用于测试模型处理文本、图像及其混合模态的检索能力。该数据集通过整合MSCOCO、Google_WIT等四个子集，支持从单模态到多模态的多样化检索场景，例如基于纯文本查询检索相关图像文档，或通过混合输入实现跨模态匹配。这种设计使得研究者能够系统评估模型在复杂模态交互中的泛化性能。

解决学术问题

MixBench-nips有效解决了多模态检索中模态对齐与交互的学术挑战。传统检索模型往往局限于单一模态，而该数据集通过提供结构化查询-文档对及其关联评分，促进了跨模态表示学习、模态间语义对齐等关键问题的研究。其标准化评估框架为衡量模型在多模态环境下的鲁棒性与准确性提供了可靠依据，推动了检索技术向更灵活、自适应方向发展。

实际应用

在实际应用中，MixBench-nips为构建智能搜索引擎、多媒体内容推荐系统提供了重要支撑。例如，在电子商务平台中，用户可通过文字描述检索相关商品图片；新闻聚合服务则能利用混合模态查询快速匹配图文新闻。数据集的多样化模态组合模拟了真实场景中的信息需求，助力开发更精准、高效的多模态检索工具，提升用户体验。

数据集最近研究