CorpusQA

github2025-12-20 更新2026-01-10 收录

下载链接：

https://github.com/Tongyi-Zhiwen/CorpusQA

下载链接

链接失效反馈

官方服务：

资源简介：

CorpusQA是一个新的基准测试，旨在评估LLMs在语料库级别分析和推理能力，扩展到1000万令牌。它特别针对证据高度分散在数百份文档中的任务，这种情况下标准稀疏检索（RAG）方法无效。该基准测试具有：大规模（四种上下文长度设置从128K到10M令牌）、复杂推理（需要过滤、统计聚合和跨文档计算的计算密集型查询）、高证据分散（关键信息分散在大量文档中，需要整体理解）、保证事实基础（每个问题都配有程序生成的真实答案，确保100%准确性）以及多样化和多语言语料库（涵盖金融、教育和房地产三个领域，包括英文和中文）。

CorpusQA is a novel benchmark developed to evaluate the corpus-level analytical and reasoning capabilities of large language models (LLMs), with its scale extended up to 10 million tokens. It specifically targets tasks where supporting evidence is highly dispersed across hundreds of documents, rendering standard sparse retrieval (RAG) methods ineffective. This benchmark has the following core characteristics: large-scale design with four context length settings ranging from 128K to 10M tokens; complex reasoning tasks requiring computationally intensive queries involving filtering, statistical aggregation and cross-document computations; high evidence dispersion, where critical information is scattered across a large volume of documents and demands holistic comprehension; guaranteed factuality, as each question is paired with programmatically generated ground-truth answers to ensure 100% accuracy; and diverse multilingual corpora covering three domains including finance, education and real estate, with content in both English and Chinese.

创建时间：

2025-12-10

原始信息汇总

CorpusQA 数据集概述

数据集基本信息

数据集名称: CorpusQA
发布者: Tongyi-Zhiwen
发布日期: 2025年12月4日
许可证: MIT
访问地址: https://huggingface.co/datasets/Tongyi-Zhiwen/CorpusQA
代码仓库: https://github.com/Tongyi-Zhiwen/CorpusQA

数据集简介

CorpusQA 是一个用于评估大语言模型（LLMs）语料库级别分析与推理能力的新基准，其上下文长度最高可达1000万令牌。该基准专门针对证据高度分散在数百份文档中的任务场景，这种场景会使标准的“稀疏检索”（RAG）方法失效。

核心特性

大规模: 包含四种上下文长度设置，从128K到1000万令牌。
复杂推理: 包含需要过滤、统计聚合和跨文档计算的计算密集型查询。
高证据分散性: 关键信息分散在大量文档中，要求模型具备整体理解能力。
保证事实基础: 每个问题都配有一个通过程序生成的真实答案，确保100%的准确性。
多样化与多语言语料库: 涵盖金融、教育、房地产三个领域，支持英文和中文。

基准构成

测试实例数量: 1,316个。
覆盖领域: 金融、教育、房地产。
上下文长度范围: 128K至1000万令牌。

构建方法

CorpusQA通过一个新颖的、模式驱动的数据合成框架构建，该框架保证了事实正确性和逻辑一致性，而无需依赖可能出错的LLM进行标注。构建过程包含六个主要阶段，分为四个关键阶段：

文档整理与结构化: 收集真实世界的PDF文档，经过两阶段过滤，保留包含丰富统计表格和数值数据的长文档（>10,240令牌），并使用多模型投票方法提取键值对以创建可靠的结构化表示。
LLM增强的查询生成: 结合人工专业知识和LLM能力，通过手动编写高质量查询模板，然后使用LLM进行释义和扩展，以增加语言多样性并防止模型过拟合。
程序化真实答案生成: 将每个语料库中所有文档的结构化JSON数据聚合到一个全局数据表中，作为规范知识库。每个自然语言查询被翻译成可执行的SQL语句，并在聚合数据表上运行，以程序化方式计算出100%准确的真实答案。
最终问答对组装: 将原始、全文的非结构化文档（上下文）、生成的查询（问题）和程序化导出的真实答案（答案）组合成最终的基准实例。

使用指南

数据准备

数据集未包含在代码仓库中，需从Hugging Face下载并放置在data/目录下。 bash git clone https://huggingface.co/datasets/Tongyi-Zhiwen/CorpusQA

环境要求

Python 3.8 或更高版本。
DashScope API密钥（从 https://dashscope.aliyuncs.com/ 获取）。

主要脚本

推理脚本 (src/infer.py): 用于在基准数据集上运行LLM评估。
评估脚本 (src/eval.py): 使用LLM作为评判员来评估模型响应。

输入数据格式

输入JSONL文件的每一行应包含： json { "id": "unique_question_id", "prompt": [{"role": "user", "content": "your prompt here"}], "question": "the question text", "answer": "ground truth answer" }

重要说明

部分真实答案可能为空列表“[]”，这是正常且有意设计的。它表示没有找到满足查询特定条件的实体（例如公司、学校）。这在现实应用中很常见。

项目结构

CorpusQA/ ├── src/ # 源代码 │ ├── infer.py # 用于运行LLM评估的推理脚本 │ └── eval.py # 使用LLM作为评判员的评估脚本 ├── scripts/ # 自动化脚本 │ ├── setup.sh # 环境设置脚本 │ └── run_example.sh # 示例执行脚本 ├── data/ # 基准数据集（需单独下载） ├── runs/ # 推理输出（自动生成） ├── evals/ # 评估结果（自动生成） ├── .env.example # 环境变量模板 ├── requirements.txt # Python依赖项 └── README.md # 说明文件

引用

如果本工作对您有帮助，请引用我们的论文： bibtex @article{lu2025corpusqa, title={CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning}, author={Zhiyuan Lu and Chenliang Li and Yingcheng Shi and Weizhou Shen and Ming Yan and Fei Huang}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建能够评估大语言模型在超长文本上分析与推理能力的数据集至关重要。CorpusQA采用了一种创新的模式驱动数据合成框架，其构建过程始于对高质量、富含数据的真实世界PDF文档进行收集与筛选，仅保留长度超过10,240个词元且包含丰富统计表格与数值数据的文档。随后，通过一个稳健的多模型投票方法从文档中提取关键值对，并利用共识机制验证数据以确保高保真度。在查询生成阶段，结合人工设计的查询模板与大语言模型的多样化能力，生成涵盖不同推理模式的多样化问题。核心环节在于程序化真实答案的生成，通过将每个语料库中所有文档的结构化JSON数据聚合为全局数据表，并将自然语言查询转化为可执行的SQL语句，从而计算出100%准确的答案。最终，将原始全文非结构化文档、自然语言查询与程序化推导的答案相结合，形成完整的评测实例。

使用方法

为便于研究者使用该数据集进行模型评测，CorpusQA提供了清晰的使用流程。首先需要从Hugging Face平台下载数据集文件并放置于指定目录。项目推荐通过自动化脚本完成环境配置，包括克隆代码库、运行安装脚本以及设置必要的API密钥。进行推理时，用户需准备符合特定JSONL格式的输入文件，其中包含问题ID、提示、问题文本及真实答案，并通过命令行工具指定模型、并发数等参数运行推理脚本，结果将自动保存。随后，可利用评估脚本将模型生成的回答与程序化生成的真实答案进行对比，以评判模型性能。整个流程支持中断恢复，已处理的条目将被自动跳过，确保了大规模评估的效率与便捷性。

背景与挑战

背景概述

在大型语言模型（LLM）迅速发展的背景下，评估模型处理超长上下文和复杂跨文档推理的能力成为关键研究课题。CorpusQA基准数据集应运而生，由通义智文团队于2025年12月发布，旨在系统评估LLM在高达千万令牌规模语料级别的分析与推理性能。该数据集聚焦金融、教育、房地产等多领域，涵盖中英双语，其核心研究问题在于解决证据高度分散于海量文档中的复杂查询任务，此类任务使得传统稀疏检索增强生成（RAG）方法失效。CorpusQA通过程序化生成保证答案的百分百准确性，为推进模型的长上下文理解与深层推理设立了新的评估标准，对自然语言处理与信息检索领域具有重要影响力。

当前挑战

CorpusQA所针对的领域挑战在于，现有模型难以在证据极度分散的超长文档集合中进行精准的全局分析与计算密集型推理，例如涉及过滤、统计聚合及跨文档运算的查询。这要求模型具备超越局部模式匹配的语料级综合理解能力。在构建过程中，挑战主要体现在高质量长文档的筛选与结构化表示提取上，需采用多模型投票共识机制以消除幻觉并确保数据保真度；同时，设计兼具多样性与复杂性的查询模板，并通过程序化方式生成可验证的真实答案，以保障评估基准的严谨性与可靠性。

常用场景

经典使用场景

在自然语言处理领域，大规模语言模型的评估正从单文档理解向跨文档推理演进。CorpusQA作为首个支持千万级令牌上下文的基准测试，其经典使用场景在于评估模型对高度分散证据的整合与分析能力。该数据集模拟了金融、教育、房地产等领域的真实文档集合，要求模型在数百万令牌的文本海洋中定位关键信息，执行复杂的统计计算与逻辑推理，从而检验模型在超长上下文下的语义理解与信息提取效能。

解决学术问题

传统检索增强生成方法在处理证据高度分散的跨文档查询时往往失效，而现有基准测试缺乏对超长上下文推理的系统性评估。CorpusQA通过程序化生成保证事实准确性的问答对，解决了大规模语料级分析中证据稀疏性、计算复杂性以及评估可靠性三大核心学术难题。该数据集为研究社区提供了衡量模型在真实世界文档集合上进行深层推理的标准化工具，推动了长上下文建模与复杂问答系统的发展。

实际应用

在金融分析、政策研究与商业智能等实际场景中，专业人员常需从海量报告、法规文档中提取跨文档的统计信息。CorpusQA所构建的千万令牌级多领域语料库，能够直接用于训练或评估智能文档分析系统，辅助实现自动化财务审计、教育数据挖掘与房地产趋势预测。其支持中英双语的特点，进一步提升了在全球化业务场景下的应用潜力，为构建下一代企业级知识推理平台提供了关键数据支撑。

数据集最近研究