AIR-BENCH

Name: AIR-BENCH
Creator: 中国科学技术大学
Published: 2024-12-20 13:42:38
License: 暂无描述

arXiv2024-12-20 更新2024-12-19 收录

下载链接：

https://github.com/AIR-Bench/AIR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AIR-BENCH是一个自动化异构信息检索基准，由大语言模型自动生成测试数据，无需人工干预。数据集涵盖了2个任务、9个领域和13种语言，包含69个数据集，旨在为社区开发者提供一个动态、全面的评估框架。数据集的创建过程包括语料库准备、候选生成和质量控制三个阶段，确保生成数据的高质量和多样性。AIR-BENCH主要应用于信息检索模型的评估，旨在解决现有基准在应对新兴领域评估需求时的局限性。

AIR-BENCH is an automated heterogeneous information retrieval benchmark where test data is automatically generated by Large Language Models (LLMs) without human intervention. Comprising 69 datasets, the benchmark covers 2 tasks, 9 domains and 13 languages, and is designed to provide a dynamic and comprehensive evaluation framework for community developers. The development pipeline of AIR-BENCH consists of three stages: corpus preparation, candidate generation and quality control, ensuring the high quality and diversity of the generated data. Primarily utilized for evaluating information retrieval models, AIR-BENCH aims to address the limitations of existing benchmarks in meeting the evaluation requirements of emerging domains.

提供机构：

中国科学技术大学

创建时间：

2024-12-18

原始信息汇总

AIR-Bench 数据集概述

☁️ 动机

评估信息检索模型的发展至关重要。现有的基准测试存在以下局限性：

无法处理新领域：所有现有基准测试都是静态的，基于人工标注的数据，无法处理用户感兴趣的新领域。
过度拟合和数据泄露的风险：现有检索器在流行基准测试上进行密集微调，尽管这些基准测试最初设计用于零样本评估，但域内训练数据在微调过程中被广泛使用，可能导致数据泄露。

☁️ 特性

自动化：测试数据由大型语言模型自动生成，无需人工干预，能够即时支持新领域的评估，且几乎不可能被现有检索器的训练集覆盖。
检索和RAG导向：专注于检索性能评估，除了典型的开放域问答或释义检索场景外，还引入了与LLM和RAG应用密切相关的文档内检索新设置。
异构和动态：测试数据根据多样且不断扩展的领域和语言生成，提供日益全面的评估基准。

☁️ 版本

计划定期发布新测试数据集。最新版本为 AIR-Bench_24.05。

版本	发布日期	领域数量	语言数量	数据集数量	详情
`AIR-Bench_24.05`	2024年10月17日	9	13	69	详情
`AIR-Bench_24.04`	2024年5月21日	8	2	28	详情

☁️ 结果

可以在 AIR-Bench Leaderboard 查看结果。详细结果可在 eval_results 获取。

☁️ 使用

安装

使用 air-benchmark 进行评估。

bash pip install air-benchmark

评估

参考以下步骤运行评估并将结果提交到排行榜：

运行评估：参考 scripts。
提交搜索结果：打包输出文件并上传到 AIR-Bench Leaderboard。

☁️ 文档

文档	描述
Pipeline	AIR-Bench 数据生成流程
Tasks	AIR-Bench 可用任务概览
Leaderboard	AIR-Bench 交互式排行榜
Submit	如何提交模型到 AIR-Bench
Contributing	如何为 AIR-Bench 贡献

许可证

代码库中的代码基于 MIT 许可证。
AIR-Bench 的测试数据基于 CC BY-NC-SA 4.0 许可证，仅可用于评估目的，不能用于任何商业或其他用途。

搜集汇总

数据集介绍

构建方式

AIR-BENCH 数据集的构建过程分为三个主要阶段：语料准备、候选生成和质量控制。首先，从真实世界的多领域和多语言语料库中收集数据，并根据任务需求进行预处理。接着，利用大型语言模型（LLMs）自动生成多样化的查询和相关文档，确保数据的多样性和高质量。最后，通过多层次的质量控制策略，包括过滤低质量查询和修正错误的相关性标签，确保生成的数据集与人工标注的数据集具有高度一致性。

特点

AIR-BENCH 数据集具有三大显著特点：自动化、异构性和动态性。自动化体现在数据集的生成完全依赖于大型语言模型，无需人工干预；异构性则表现在数据集涵盖了多种任务、领域和语言，提供了广泛的评估场景；动态性则意味着数据集的内容会定期更新，以适应新兴领域的需求，确保评估基准的全面性和时效性。

使用方法

AIR-BENCH 数据集可用于评估各种信息检索模型的性能。用户可以通过提供的 Python 框架实现检索器，输入查询和语料库，输出检索结果。此外，数据集还支持检索后重排序的评估方式，用户可以实现重排序模型，进一步优化检索结果。数据集的评估结果可以通过 Hugging Face 的公开排行榜进行跟踪和比较，促进社区内的模型性能提升和交流。

背景与挑战

背景概述

AIR-BENCH是由中国科学技术大学、北京人工智能研究院、Jina AI等机构的研究人员共同开发的一个自动化异构信息检索基准（Automated Heterogeneous Information Retrieval Benchmark）。该数据集旨在解决现有信息检索（IR）基准在应对新兴领域评估需求时的局限性，特别是依赖预定义领域和人工标注数据的不足。AIR-BENCH通过自动化生成测试数据、涵盖多任务、多领域和多语言的异构特性，以及动态扩展评估范围，为信息检索模型的评估提供了一个全面且灵活的框架。该数据集的开发团队通过构建一个可靠且高效的数据生成管道，利用大规模语言模型（LLMs）自动生成多样且高质量的测试数据，确保其与人工标注数据的兼容性，从而为社区开发者提供了一个可信赖的评估平台。

当前挑战

AIR-BENCH面临的主要挑战包括：1）自动化生成测试数据的准确性与多样性，尽管LLMs能够生成高质量的测试数据，但其生成的数据仍需经过严格的质量控制，以确保与人工标注数据的一致性；2）异构性带来的复杂性，AIR-BENCH涵盖了多任务、多领域和多语言的测试数据，这要求模型在不同场景下具备良好的泛化能力；3）动态扩展的可持续性，随着领域的不断扩展，如何保持数据生成的效率和质量是一个持续的挑战；4）依赖于真实世界语料库的可用性，数据集的扩展依赖于可获取的真实世界语料库，这可能限制其扩展速度和覆盖范围；5）LLMs的局限性，生成数据的多样性和质量依赖于LLMs的能力，尤其是在特定领域和语言的处理上。

常用场景

经典使用场景

AIR-BENCH 数据集的经典使用场景主要集中在信息检索（IR）模型的评估上。由于其自动化生成、异构性和动态扩展的特性，AIR-BENCH 能够为研究人员提供多样化的任务、领域和语言的测试数据，从而全面评估 IR 模型在不同场景下的表现。例如，研究人员可以使用 AIR-BENCH 来测试模型在多语言环境下的检索能力，或者评估模型在特定领域（如医疗、法律）中的表现。

衍生相关工作

AIR-BENCH 的提出催生了一系列相关的研究工作。例如，基于 AIR-BENCH 的研究人员可以进一步探索如何利用大规模语言模型（LLMs）生成高质量的测试数据，或者研究如何在多语言环境下优化信息检索模型。此外，AIR-BENCH 的动态扩展特性也为未来的研究提供了丰富的可能性，研究人员可以基于 AIR-BENCH 开发新的评估方法或提出新的信息检索模型。

数据集最近研究