MIR-Bench

Name: MIR-Bench
Creator: 字节跳动
Published: 2025-02-14 14:05:12
License: 暂无描述

arXiv2025-02-14 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.09933v1

下载链接

链接失效反馈

官方服务：

资源简介：

MIR-Bench是一个大规模、多样化的多示例归纳推理基准数据集，由字节跳动公司提出。该数据集通过从现有的编码基准中收集函数，使用GPT-4o-0806编写数据生成器，产生输入输出对，进而构建而成。数据集包含6930个问题，涵盖了多种输入输出格式，能够测试大型语言模型在处理长上下文和多样数据格式时的归纳推理能力。

MIR-Bench is a large-scale, diverse multi-example inductive reasoning benchmark dataset proposed by ByteDance. It is constructed by collecting functions from existing coding benchmarks, then using GPT-4o-0806 to develop a data generator that generates input-output pairs. The dataset includes 6930 problems covering a wide range of input-output formats, and can evaluate the inductive reasoning capabilities of large language models when handling long contexts and diverse data formats.

提供机构：

字节跳动

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

MIR-Bench数据集的构建方式独具匠心，首先从现有的编码基准中收集函数，然后使用GPT-4o-0806模型编写代码生成器，生成输入-输出对。接着，运行这些生成器以产生ICL示例和测试输入。最后，运行基准函数以生成真实输出，并通过脚本来构建最终的问题提示。

使用方法

MIR-Bench数据集的使用方法涉及对LLM进行评估，这些LLM在数据集上接受从4到2048个示例的测试。评估是通过精确匹配来进行的，即LLM的输出与基准函数的真实输出进行比对。此外，还进行了许多探索性实验，以研究诸如CoT技术、LLM的鲁棒性和编码范式等因素对归纳推理的影响。

背景与挑战

背景概述

MIR-Bench是一个由ByteDance和伊利诺伊大学香槟分校的研究人员创建的大规模多示例上下文归纳推理基准数据集。该数据集旨在评估大型语言模型（LLMs）在处理大量示例和长上下文时的归纳推理能力。MIR-Bench填补了当前LLM评估中的空白，因为现有的基准测试要么集中在少量示例（通常少于10个）的设置上，要么缺乏对长上下文中聚合多信息进行评估的能力。随着LLMs上下文长度的不断增加，多示例上下文学习（ICL）的新范式应运而生，该范式能够处理数百到数千个示例，而无需昂贵且效率低下的微调。然而，多示例评估主要集中于分类（归纳推理的一个非常有限的方面），而流行的长上下文LLM任务，如“草堆中的针”（NIAH），很少需要复杂的智能来整合许多信息。为了解决这些问题，MIR-Bench提出了第一个多示例上下文归纳推理基准，要求LLM通过来自底层函数的输入-输出示例来推导输出。该数据集于2025年2月发布，并已在多个方面取得了重要发现。

当前挑战

MIR-Bench数据集面临的主要挑战包括：1）如何评估LLMs聚合多个示例中的信息以进行归纳推理的能力，特别是在处理复杂问题时的能力；2）如何确定哪些问题可以从多示例ICL中受益，以及如何构建一个高质量的多示例基准；3）LLMs在面对错误示例时的鲁棒性，以及如何提高其在多示例归纳推理任务中的表现；4）评估LLMs在处理多示例上下文时的智能水平，以及如何利用额外的信息来提高性能。此外，MIR-Bench还面临构建过程中的一些挑战，如自动生成新问题的管道的设计和实现，以及对LLMs在多示例归纳推理任务中的行为进行深入分析。

常用场景

经典使用场景

MIR-Bench数据集主要被用于评估大型语言模型（LLMs）在多示例上下文归纳推理（ICL）方面的能力。该数据集要求LLMs根据输入输出的例子来预测未知函数的输出，涵盖了多种不同的输入输出格式，从而能够测试LLMs在处理大量信息时的归纳推理能力。

解决学术问题

MIR-Bench数据集解决了现有LLM评估中的空白，即缺乏对多示例上下文归纳推理能力的评估。该数据集通过提供大量的问题，使得LLMs能够从多个例子中归纳出规则，并应用于新的例子，从而测试了LLMs在处理复杂问题和大量信息时的能力。这对于评估LLMs的智能水平具有重要意义。

实际应用

MIR-Bench数据集的实际应用场景包括但不限于智能客服、问答系统、代码生成等。通过使用MIR-Bench数据集训练和评估LLMs，可以提高这些系统的准确性和鲁棒性，从而为用户提供更加智能和高效的服务。例如，在智能客服系统中，LLMs可以根据大量的对话数据归纳出用户的需求和意图，从而更好地理解用户的问题并提供准确的回答。在代码生成中，LLMs可以根据大量的代码示例归纳出编程规则，从而生成更加准确和高效的代码。

数据集最近研究