AIR-Bench/long-doc_arxiv_en

Name: AIR-Bench/long-doc_arxiv_en
Creator: AIR-Bench
Published: 2024-09-28 04:23:56
License: 暂无描述

Hugging Face2024-09-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/AIR-Bench/long-doc_arxiv_en

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en multilinguality: - monolingual task_categories: - text-retrieval task_ids: - document-retrieval configs: - config_name: AIR-Bench_24.04 data_files: - split: corpus_gpt3 path: "AIR-Bench_24.04/gpt3/corpus.jsonl" - split: queries_gpt3 path: "AIR-Bench_24.04/gpt3/test_queries.jsonl" - split: corpus_llama2 path: "AIR-Bench_24.04/llama2/corpus.jsonl" - split: queries_llama2 path: "AIR-Bench_24.04/llama2/test_queries.jsonl" - split: corpus_gemini path: "AIR-Bench_24.04/gemini/corpus.jsonl" - split: queries_gemini path: "AIR-Bench_24.04/gemini/test_queries.jsonl" - split: corpus_llm_survey path: "AIR-Bench_24.04/llm-survey/corpus.jsonl" - split: queries_llm_survey path: "AIR-Bench_24.04/llm-survey/test_queries.jsonl" - config_name: AIR-Bench_24.05 data_files: - split: corpus_gpt3 path: "AIR-Bench_24.05/gpt3/corpus.jsonl" - split: queries_gpt3_test path: "AIR-Bench_24.05/gpt3/test_queries.jsonl" - split: corpus_llama2 path: "AIR-Bench_24.05/llama2/corpus.jsonl" - split: queries_llama2_dev path: "AIR-Bench_24.05/llama2/dev_queries.jsonl" - split: corpus_gemini path: "AIR-Bench_24.05/gemini/corpus.jsonl" - split: queries_gemini_test path: "AIR-Bench_24.05/gemini/test_queries.jsonl" - split: corpus_llm_survey path: "AIR-Bench_24.05/llm-survey/corpus.jsonl" - split: queries_llm_survey_test path: "AIR-Bench_24.05/llm-survey/test_queries.jsonl" --- Available Versions: - AIR-Bench_24.04 - Task / Domain / Language: long-doc / arxiv / en - Available Datasets (Dataset Name: Splits): - gpt3: test - llama2: test - gemini: test - llm-survey: test - AIR-Bench_24.05 - Task / Domain / Language: long-doc / arxiv / en - Available Datasets (Dataset Name: Splits): - gpt3: test - llama2: dev - gemini: test - llm-survey: test

提供机构：

AIR-Bench

原始信息汇总

数据集概述

基本信息

语言: 英语 (en)
多语言性: 单语种
任务类别: 文本检索
任务ID: 文档检索

配置详情

配置名称: AIR-Bench_24.04
数据文件:
- split: queries_gpt3
  - path: "AIR-Bench_24.04/gpt3/queries.jsonl"
- split: corpus_gpt3
  - path: "AIR-Bench_24.04/gpt3/corpus.jsonl"
- split: queries_llama2
  - path: "AIR-Bench_24.04/llama2/queries.jsonl"
- split: corpus_llama2
  - path: "AIR-Bench_24.04/llama2/corpus.jsonl"
- split: queries_llm_survey
  - path: "AIR-Bench_24.04/llm-survey/queries.jsonl"
- split: corpus_llm_survey
  - path: "AIR-Bench_24.04/llm-survey/corpus.jsonl"
- split: queries_gemini
  - path: "AIR-Bench_24.04/gemini/queries.jsonl"
- split: corpus_gemini
  - path: "AIR-Bench_24.04/gemini/corpus.jsonl"

其他信息

可用版本: AIR-Bench_24.04
任务类型: 长文档
领域: arxiv
任务名称列表:
- gpt3
- llama2
- llm-survey
- gemini

搜集汇总

数据集介绍

构建方式

在长文档检索领域，AIR-Bench/long-doc_arxiv_en数据集的构建体现了严谨的工程化流程。该数据集基于arXiv学术论文平台，采用结构化抽取方式，针对不同大语言模型生成版本分别整理语料库与查询集。其构建过程遵循版本化管理，设有AIR-Bench_24.04与AIR-Bench_24.05两个主要版本，每个版本下进一步细分为gpt3、llama2、gemini及llm-survey四个子集，每个子集均包含独立的corpus与queries文件，确保了数据源的清晰追溯与实验的可复现性。

使用方法

对于信息检索研究而言，该数据集的使用需遵循其版本化架构。研究者可根据评估需求选择AIR-Bench_24.04或24.05版本，每个版本下对应不同大语言模型生成的语料库与查询集。典型使用流程包括加载指定路径的JSONL格式文件，将corpus文档建立索引，并使用对应的queries进行检索性能评估。数据集已预设训练测试划分，用户可直接基于现有划分进行模型训练与测试，或根据llama2子集中的开发集进行超参数调优，最终实现长文档检索系统的客观评测。

背景与挑战

背景概述

随着信息检索技术的演进，长文档检索已成为自然语言处理领域的关键研究方向。AIR-Bench/long-doc_arxiv_en数据集由相关研究团队于2024年构建，专注于评估大型语言模型在学术文献检索任务中的性能。该数据集以arXiv平台的英文长文档为语料，旨在解决复杂查询与长篇科学文本之间的精准匹配问题，为信息检索系统的优化提供了重要的基准测试资源，推动了学术文献智能检索技术的发展。

当前挑战

长文档检索面临的核心挑战在于处理文本的语义深度与结构复杂性，要求模型能够理解并关联跨段落的细微信息。在数据集构建过程中，挑战主要集中于长文档的语义标注与查询生成，需确保查询与文档片段之间的逻辑一致性，同时避免引入人为偏差。此外，多版本数据集的协调与质量把控也增加了构建的难度，需平衡不同语言模型生成内容的多样性与准确性。

常用场景

经典使用场景

在信息检索领域，长文档检索任务对模型的语义理解与上下文处理能力提出了严峻挑战。AIR-Bench/long-doc_arxiv_en数据集通过构建基于arXiv学术论文的长文档语料库与查询对，为评估检索模型在真实学术场景下的性能提供了标准化基准。该数据集典型地用于测试模型从海量长篇幅文档中精准定位相关信息的能力，尤其在处理技术术语密集、逻辑结构复杂的科学文献时，能够有效衡量模型对深层语义关联的捕捉效率。

解决学术问题

该数据集致力于解决信息检索研究中长文档检索的评估难题。传统检索基准往往侧重于短文本或段落级匹配，难以反映模型处理学术论文等长篇内容的实际表现。通过提供多版本、多模型生成的语料与查询，该数据集为学术界提供了衡量检索模型在长文档场景下鲁棒性、泛化能力与公平比较的统一平台，推动了长文档检索评估方法的标准化与精细化发展。

实际应用

在实际应用中，该数据集支撑了学术搜索引擎、智能文献推荐系统以及研究辅助工具的开发与优化。基于arXiv论文构建的语料库模拟了研究人员检索相关文献、追踪学术前沿的真实需求。通过在该数据集上训练与评估，检索系统能够提升对长文档核心内容的摘要、关键信息的提取以及跨文档知识关联的准确性，从而显著增强学术信息服务的效率与用户体验。

数据集最近研究