MIRB: Mathematical Information Retrieval Benchmark

github2025-05-29 更新2025-06-11 收录

下载链接：

https://github.com/j991222/mirb

下载链接

链接失效反馈

官方服务：

资源简介：

MIRB（数学信息检索基准）是一个旨在评估检索模型在数学信息检索任务上性能的基准数据集。

MIRB (Mathematical Information Retrieval Benchmark) is a benchmark dataset designed to evaluate the performance of retrieval models on mathematical information retrieval tasks.

创建时间：

2025-05-16

原始信息汇总

MIRB: Mathematical Information Retrieval Benchmark 数据集概述

数据集简介

名称：MIRB (Mathematical Information Retrieval Benchmark)
用途：用于评估检索模型在数学信息检索任务中的性能
论文：MIRB: Mathematical Information Retrieval Benchmark
数据集地址：HuggingFace MIRB

技术基础

本项目基于MTEB(1.28.0)修改，支持动态语料库处理

安装方法

bash git clone https://github.com/j991222/mirb.git cd mirb pip install -e .

使用示例

完整基准测试评估

bash cd tests/test_mirb python test_mirb.py

单任务评估

python import mteb

model_name = "intfloat/e5-mistral-7b-instruct" task_name = "MODupRetrieval" tasks = mteb.get_tasks(tasks=[task_name]) evaluation = mteb.MTEB(tasks=tasks)

results = evaluation.run(model, output_folder=f"results/mirb/{model_name}/{task_name}", encode_kwargs={"batch_size": 16, "max_length": 4096}, save_predictions=True)

引用格式

@article{ju2025mirb, title={MIRB: Mathematical Information Retrieval Benchmark}, author={Ju, Haocheng and Dong, Bin}, journal={arXiv preprint arXiv:2505.15585}, year={2025} }

搜集汇总

数据集介绍

构建方式

MIRB数据集作为数学信息检索领域的基准测试工具，其构建过程充分考虑了数学表达的特殊性与复杂性。该数据集基于MTEB框架进行深度改造，通过动态语料库处理机制，整合了多元化的数学文献资源与查询语句。研究人员精心设计了包含公式、定理等数学元素的检索任务，采用层次化标注体系确保数据质量，同时通过交叉验证消除标注偏差，为评估模型在数学语义理解方面的性能提供了可靠标准。

特点

该数据集最显著的特点在于其专注于数学领域的细粒度信息检索，涵盖了从基础运算到高阶理论的广泛数学内容。其任务设计模拟真实学术场景，包含公式匹配、定理检索等专业需求，支持对模型数学符号处理能力的多维度测评。数据集采用标准化评估协议，提供统一的度量指标和任务划分，确保不同研究之间的可比性。动态语料库机制允许灵活扩展，适应数学检索技术的快速发展需求。

使用方法

使用者可通过HuggingFace平台直接获取数据集资源，或通过GitHub仓库克隆完整项目环境。评估流程设计高度模块化，既支持全量基准测试的一键执行，也允许针对特定任务进行定制化评估。调用MTEB接口时，用户只需指定预训练模型和目标任务，系统即可自动完成特征提取、相似度计算和性能评估的全流程。结果输出包含详细预测记录和标准化指标报告，便于深度分析模型在数学检索任务中的表现特性。

背景与挑战

背景概述

MIRB（数学信息检索基准）是由Haocheng Ju和Bin Dong于2025年提出的一个专门用于评估数学信息检索模型性能的基准数据集。该数据集旨在解决数学领域中复杂符号和结构信息的检索问题，填补了传统文本检索模型在处理数学表达式时的性能评估空白。作为MTEB（嵌入基准测试）的一个分支，MIRB通过动态语料库的扩展，为研究者提供了一个标准化、可复现的测试平台，对推动数学信息检索领域的发展具有重要意义。

当前挑战

数学信息检索面临的核心挑战在于数学表达式的复杂性和多样性，传统的文本检索模型难以准确捕捉数学符号的语义关系和结构信息。MIRB在构建过程中需解决数学表达式标准化表示、跨模态对齐（如文本与公式的关联）以及评估指标设计等难题。此外，动态语料库的引入虽然增强了数据集的灵活性，但也带来了数据一致性和可比性方面的挑战，这对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在数学信息检索领域，MIRB数据集为研究者提供了一个标准化的评估框架，用于测试和比较不同检索模型在处理数学表达式和符号时的性能。通过包含多样化的数学查询和相关文档，该数据集能够全面评估模型在复杂数学语境下的准确性和鲁棒性。

解决学术问题

MIRB数据集解决了数学信息检索中缺乏统一评估标准的问题，为研究者提供了一个可靠的基准。它不仅支持对现有模型的性能进行量化比较，还为开发新型检索算法提供了丰富的数据支持，推动了数学信息检索领域的研究进展。

衍生相关工作

MIRB数据集衍生了一系列经典工作，包括基于深度学习的数学表达式嵌入方法、跨模态检索模型以及数学符号的语义理解技术。这些工作进一步拓展了数学信息检索的应用范围，并为后续研究提供了重要的技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集