AIR-BENCH
收藏arXiv2024-12-20 更新2024-12-19 收录
下载链接:
https://github.com/AIR-Bench/AIR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
AIR-BENCH是一个自动化异构信息检索基准,由大语言模型自动生成测试数据,无需人工干预。数据集涵盖了2个任务、9个领域和13种语言,包含69个数据集,旨在为社区开发者提供一个动态、全面的评估框架。数据集的创建过程包括语料库准备、候选生成和质量控制三个阶段,确保生成数据的高质量和多样性。AIR-BENCH主要应用于信息检索模型的评估,旨在解决现有基准在应对新兴领域评估需求时的局限性。
AIR-BENCH is an automated heterogeneous information retrieval benchmark where test data is automatically generated by Large Language Models (LLMs) without human intervention. Comprising 69 datasets, the benchmark covers 2 tasks, 9 domains and 13 languages, and is designed to provide a dynamic and comprehensive evaluation framework for community developers. The development pipeline of AIR-BENCH consists of three stages: corpus preparation, candidate generation and quality control, ensuring the high quality and diversity of the generated data. Primarily utilized for evaluating information retrieval models, AIR-BENCH aims to address the limitations of existing benchmarks in meeting the evaluation requirements of emerging domains.
提供机构:
中国科学技术大学
创建时间:
2024-12-18
原始信息汇总
AIR-Bench 数据集概述
☁️ 动机
评估信息检索模型的发展至关重要。现有的基准测试存在以下局限性:
- 无法处理新领域:所有现有基准测试都是静态的,基于人工标注的数据,无法处理用户感兴趣的新领域。
- 过度拟合和数据泄露的风险:现有检索器在流行基准测试上进行密集微调,尽管这些基准测试最初设计用于零样本评估,但域内训练数据在微调过程中被广泛使用,可能导致数据泄露。
☁️ 特性
- 自动化:测试数据由大型语言模型自动生成,无需人工干预,能够即时支持新领域的评估,且几乎不可能被现有检索器的训练集覆盖。
- 检索和RAG导向:专注于检索性能评估,除了典型的开放域问答或释义检索场景外,还引入了与LLM和RAG应用密切相关的文档内检索新设置。
- 异构和动态:测试数据根据多样且不断扩展的领域和语言生成,提供日益全面的评估基准。
☁️ 版本
计划定期发布新测试数据集。最新版本为 AIR-Bench_24.05。
| 版本 | 发布日期 | 领域数量 | 语言数量 | 数据集数量 | 详情 |
|---|---|---|---|---|---|
AIR-Bench_24.05 |
2024年10月17日 | 9 | 13 | 69 | 详情 |
AIR-Bench_24.04 |
2024年5月21日 | 8 | 2 | 28 | 详情 |
☁️ 结果
可以在 AIR-Bench Leaderboard 查看结果。详细结果可在 eval_results 获取。
☁️ 使用
安装
使用 air-benchmark 进行评估。
bash pip install air-benchmark
评估
参考以下步骤运行评估并将结果提交到排行榜:
- 运行评估:参考 scripts。
- 提交搜索结果:打包输出文件并上传到 AIR-Bench Leaderboard。
☁️ 文档
| 文档 | 描述 |
|---|---|
| Pipeline | AIR-Bench 数据生成流程 |
| Tasks | AIR-Bench 可用任务概览 |
| Leaderboard | AIR-Bench 交互式排行榜 |
| Submit | 如何提交模型到 AIR-Bench |
| Contributing | 如何为 AIR-Bench 贡献 |
许可证
- 代码库中的代码基于 MIT 许可证。
- AIR-Bench 的测试数据基于 CC BY-NC-SA 4.0 许可证,仅可用于评估目的,不能用于任何商业或其他用途。
搜集汇总
数据集介绍

构建方式
AIR-BENCH 数据集的构建过程分为三个主要阶段:语料准备、候选生成和质量控制。首先,从真实世界的多领域和多语言语料库中收集数据,并根据任务需求进行预处理。接着,利用大型语言模型(LLMs)自动生成多样化的查询和相关文档,确保数据的多样性和高质量。最后,通过多层次的质量控制策略,包括过滤低质量查询和修正错误的相关性标签,确保生成的数据集与人工标注的数据集具有高度一致性。
特点
AIR-BENCH 数据集具有三大显著特点:自动化、异构性和动态性。自动化体现在数据集的生成完全依赖于大型语言模型,无需人工干预;异构性则表现在数据集涵盖了多种任务、领域和语言,提供了广泛的评估场景;动态性则意味着数据集的内容会定期更新,以适应新兴领域的需求,确保评估基准的全面性和时效性。
使用方法
AIR-BENCH 数据集可用于评估各种信息检索模型的性能。用户可以通过提供的 Python 框架实现检索器,输入查询和语料库,输出检索结果。此外,数据集还支持检索后重排序的评估方式,用户可以实现重排序模型,进一步优化检索结果。数据集的评估结果可以通过 Hugging Face 的公开排行榜进行跟踪和比较,促进社区内的模型性能提升和交流。
背景与挑战
背景概述
AIR-BENCH是由中国科学技术大学、北京人工智能研究院、Jina AI等机构的研究人员共同开发的一个自动化异构信息检索基准(Automated Heterogeneous Information Retrieval Benchmark)。该数据集旨在解决现有信息检索(IR)基准在应对新兴领域评估需求时的局限性,特别是依赖预定义领域和人工标注数据的不足。AIR-BENCH通过自动化生成测试数据、涵盖多任务、多领域和多语言的异构特性,以及动态扩展评估范围,为信息检索模型的评估提供了一个全面且灵活的框架。该数据集的开发团队通过构建一个可靠且高效的数据生成管道,利用大规模语言模型(LLMs)自动生成多样且高质量的测试数据,确保其与人工标注数据的兼容性,从而为社区开发者提供了一个可信赖的评估平台。
当前挑战
AIR-BENCH面临的主要挑战包括:1)自动化生成测试数据的准确性与多样性,尽管LLMs能够生成高质量的测试数据,但其生成的数据仍需经过严格的质量控制,以确保与人工标注数据的一致性;2)异构性带来的复杂性,AIR-BENCH涵盖了多任务、多领域和多语言的测试数据,这要求模型在不同场景下具备良好的泛化能力;3)动态扩展的可持续性,随着领域的不断扩展,如何保持数据生成的效率和质量是一个持续的挑战;4)依赖于真实世界语料库的可用性,数据集的扩展依赖于可获取的真实世界语料库,这可能限制其扩展速度和覆盖范围;5)LLMs的局限性,生成数据的多样性和质量依赖于LLMs的能力,尤其是在特定领域和语言的处理上。
常用场景
经典使用场景
AIR-BENCH 数据集的经典使用场景主要集中在信息检索(IR)模型的评估上。由于其自动化生成、异构性和动态扩展的特性,AIR-BENCH 能够为研究人员提供多样化的任务、领域和语言的测试数据,从而全面评估 IR 模型在不同场景下的表现。例如,研究人员可以使用 AIR-BENCH 来测试模型在多语言环境下的检索能力,或者评估模型在特定领域(如医疗、法律)中的表现。
衍生相关工作
AIR-BENCH 的提出催生了一系列相关的研究工作。例如,基于 AIR-BENCH 的研究人员可以进一步探索如何利用大规模语言模型(LLMs)生成高质量的测试数据,或者研究如何在多语言环境下优化信息检索模型。此外,AIR-BENCH 的动态扩展特性也为未来的研究提供了丰富的可能性,研究人员可以基于 AIR-BENCH 开发新的评估方法或提出新的信息检索模型。
数据集最近研究
最新研究方向
AIR-BENCH 数据集的最新研究方向主要集中在自动化异构信息检索(IR)评估的领域。该数据集通过大规模语言模型(LLMs)自动生成测试数据,涵盖多样化的任务、领域和语言,旨在为信息检索模型的评估提供一个动态、全面且高效的基准。研究者们关注如何通过自动化的数据生成流程,确保生成的测试数据与人工标注数据的高度一致性,从而提升评估的可靠性和有效性。此外,AIR-BENCH 还通过不断扩展其覆盖的领域和语言,推动信息检索技术在多语言和多领域场景下的应用与发展。
相关研究论文
- 1AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark中国科学技术大学 · 2024年
以上内容由遇见数据集搜集并总结生成



