CorpusQA
收藏CorpusQA 数据集概述
数据集基本信息
- 数据集名称: CorpusQA
- 发布者: Tongyi-Zhiwen
- 发布日期: 2025年12月4日
- 许可证: MIT
- 访问地址: https://huggingface.co/datasets/Tongyi-Zhiwen/CorpusQA
- 代码仓库: https://github.com/Tongyi-Zhiwen/CorpusQA
数据集简介
CorpusQA 是一个用于评估大语言模型(LLMs)语料库级别分析与推理能力的新基准,其上下文长度最高可达1000万令牌。该基准专门针对证据高度分散在数百份文档中的任务场景,这种场景会使标准的“稀疏检索”(RAG)方法失效。
核心特性
- 大规模: 包含四种上下文长度设置,从128K到1000万令牌。
- 复杂推理: 包含需要过滤、统计聚合和跨文档计算的计算密集型查询。
- 高证据分散性: 关键信息分散在大量文档中,要求模型具备整体理解能力。
- 保证事实基础: 每个问题都配有一个通过程序生成的真实答案,确保100%的准确性。
- 多样化与多语言语料库: 涵盖金融、教育、房地产三个领域,支持英文和中文。
基准构成
- 测试实例数量: 1,316个。
- 覆盖领域: 金融、教育、房地产。
- 上下文长度范围: 128K至1000万令牌。
构建方法
CorpusQA通过一个新颖的、模式驱动的数据合成框架构建,该框架保证了事实正确性和逻辑一致性,而无需依赖可能出错的LLM进行标注。构建过程包含六个主要阶段,分为四个关键阶段:
- 文档整理与结构化: 收集真实世界的PDF文档,经过两阶段过滤,保留包含丰富统计表格和数值数据的长文档(>10,240令牌),并使用多模型投票方法提取键值对以创建可靠的结构化表示。
- LLM增强的查询生成: 结合人工专业知识和LLM能力,通过手动编写高质量查询模板,然后使用LLM进行释义和扩展,以增加语言多样性并防止模型过拟合。
- 程序化真实答案生成: 将每个语料库中所有文档的结构化JSON数据聚合到一个全局数据表中,作为规范知识库。每个自然语言查询被翻译成可执行的SQL语句,并在聚合数据表上运行,以程序化方式计算出100%准确的真实答案。
- 最终问答对组装: 将原始、全文的非结构化文档(上下文)、生成的查询(问题)和程序化导出的真实答案(答案)组合成最终的基准实例。
使用指南
数据准备
数据集未包含在代码仓库中,需从Hugging Face下载并放置在data/目录下。
bash
git clone https://huggingface.co/datasets/Tongyi-Zhiwen/CorpusQA
环境要求
- Python 3.8 或更高版本。
- DashScope API密钥(从 https://dashscope.aliyuncs.com/ 获取)。
主要脚本
- 推理脚本 (
src/infer.py): 用于在基准数据集上运行LLM评估。 - 评估脚本 (
src/eval.py): 使用LLM作为评判员来评估模型响应。
输入数据格式
输入JSONL文件的每一行应包含: json { "id": "unique_question_id", "prompt": [{"role": "user", "content": "your prompt here"}], "question": "the question text", "answer": "ground truth answer" }
重要说明
部分真实答案可能为空列表“[]”,这是正常且有意设计的。它表示没有找到满足查询特定条件的实体(例如公司、学校)。这在现实应用中很常见。
项目结构
CorpusQA/ ├── src/ # 源代码 │ ├── infer.py # 用于运行LLM评估的推理脚本 │ └── eval.py # 使用LLM作为评判员的评估脚本 ├── scripts/ # 自动化脚本 │ ├── setup.sh # 环境设置脚本 │ └── run_example.sh # 示例执行脚本 ├── data/ # 基准数据集(需单独下载) ├── runs/ # 推理输出(自动生成) ├── evals/ # 评估结果(自动生成) ├── .env.example # 环境变量模板 ├── requirements.txt # Python依赖项 └── README.md # 说明文件
引用
如果本工作对您有帮助,请引用我们的论文: bibtex @article{lu2025corpusqa, title={CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning}, author={Zhiyuan Lu and Chenliang Li and Yingcheng Shi and Weizhou Shen and Ming Yan and Fei Huang}, year={2025}, }




