RAG Challenge 2 Datasets

github2025-03-21 更新2025-03-23 收录

下载链接：

https://github.com/IlyaRice/RAG-Challenge-2

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含两个数据集：1. 一个小型测试集，包含5份年度报告和相关问题；2. 完整的ERC2竞赛数据集，包含所有竞赛问题和报告。这些数据集可用于研究示例问题、报告和系统输出，从头开始运行管道，或使用预处理数据直接跳转到特定管道阶段。

This repository houses two datasets: 1. A small test set comprising 5 annual reports and their associated questions; 2. The full ERC2 competition dataset, which includes all competition questions and reports. These datasets can be used to conduct research on sample questions, reports, and system outputs, run pipelines from scratch, or directly jump to specific pipeline stages by utilizing preprocessed data.

创建时间：

2025-03-19

原始信息汇总

数据集概述

数据集来源

数据集详情页面地址：RAG Challenge Winner Solution

数据集内容

该数据集包含两个部分：
1. 小型测试集：位于 data/test_set/ 目录下，包含5份公司年度报告及相关问题。
2. 完整ERC2竞赛数据集：位于 data/erc2_set/ 目录下，包含所有竞赛问题和报告。

数据集用途

该数据集可用于：
- 研究示例问题、报告和系统输出。
- 使用提供的PDF文件从头运行管道。
- 使用预处理数据直接跳转到特定的管道阶段。

数据集目录结构

data/test_set/README.md：小型测试数据集的详细内容和设置说明。
data/erc2_set/README.md：完整竞赛数据集的详细内容和设置说明。

数据集处理

数据集处理可通过以下命令进行：
- download-models：下载所需的docling模型。
- parse-pdfs：解析PDF报告，支持并行处理选项。
- serialize-tables：处理解析报告中的表格。
- process-reports：在解析的报告上运行完整管道。
- process-questions：使用指定配置处理问题。

配置选项

max_nst_o3m：使用OpenAI的o3-mini模型的最佳配置。
ibm_llama70b：使用IBM的Llama 70B模型的替代配置。
gemini_thinking：使用Gemini的巨大上下文窗口进行完整上下文回答，实际上不是RAG。

许可证

该数据集采用MIT许可证。

搜集汇总

数据集介绍

构建方式

RAG Challenge 2 Datasets的构建过程融合了多种先进技术，旨在提升对公司年报问题的回答准确性。数据集通过定制化的PDF解析工具Docling进行文档处理，结合向量搜索与父文档检索技术，优化了信息的提取与匹配。此外，利用大语言模型（LLM）进行重排序，增强了上下文的相关性，并通过结构化输出提示与链式思维推理，进一步提升了回答的精确度。多公司比较的查询路由机制则为复杂问题提供了高效的解决方案。

特点

该数据集的特点在于其高度集成化的技术栈与灵活的应用场景。数据集不仅包含了小规模的测试集，还提供了完整的ERC2竞赛数据集，涵盖了丰富的年报与问题对。通过预处理的PDF文档与问题集，用户可以快速进入特定的处理阶段，极大地缩短了实验周期。此外，数据集支持多种配置选项，用户可以根据需求选择不同的模型与处理流程，如OpenAI的o3-mini模型或IBM的Llama 70B模型，以满足不同的性能与精度要求。

使用方法

使用RAG Challenge 2 Datasets时，用户首先需克隆并设置项目环境，随后通过命令行工具执行数据处理流程。数据集支持从PDF解析到问题处理的完整流程，用户可以选择性地运行特定阶段，如PDF解析、表格序列化或问题处理。通过配置文件的灵活调整，用户能够快速切换不同的模型与处理策略，如使用OpenAI的o3-mini模型进行最优性能配置，或利用Gemini的大上下文窗口进行全上下文回答。命令行工具提供了详细的帮助信息，用户可通过`--help`选项获取每个命令的具体用法与参数说明。

背景与挑战

背景概述

RAG Challenge 2 Datasets 是由 Ilya Rice 等研究人员在 RAG Challenge 竞赛中创建的，旨在推动基于检索增强生成（Retrieval-Augmented Generation, RAG）技术的问答系统研究。该数据集的核心研究问题是如何从公司年度报告中提取关键信息并生成准确的答案。通过结合自定义的 PDF 解析、向量搜索、大语言模型（LLM）重排序以及结构化输出提示等技术，该数据集为问答系统领域提供了新的研究范式。其影响力不仅体现在竞赛结果上，还为学术界和工业界提供了宝贵的实验数据和技术参考。

当前挑战

RAG Challenge 2 Datasets 面临的挑战主要集中在两个方面。首先，在领域问题方面，如何从复杂的公司年度报告中提取结构化信息并生成高质量的答案是一个技术难点，尤其是面对多公司比较和上下文相关性优化时。其次，在数据集构建过程中，PDF 解析的复杂性、大规模数据处理的计算需求以及模型集成的高效性都带来了显著的技术挑战。此外，竞赛代码的粗糙性和缺乏生产级优化也增加了实际应用的难度，尤其是在处理多语言、多格式文档时，系统的鲁棒性和扩展性仍需进一步提升。

常用场景

经典使用场景

RAG Challenge 2 Datasets 主要用于研究和开发基于检索增强生成（RAG）技术的问答系统。该数据集通过提供公司年度报告及其相关问题的集合，使得研究人员能够深入探索如何从复杂的文档中提取信息并生成准确的答案。经典的使用场景包括测试和优化文档解析、向量搜索、上下文相关性重排序等技术，以及评估多公司比较的查询路由策略。

实际应用

在实际应用中，RAG Challenge 2 Datasets 可被用于开发智能财务分析工具，帮助投资者和分析师快速从大量年度报告中提取关键信息。此外，该数据集还可用于构建企业知识管理系统，通过自动化问答功能提升企业内部信息检索的效率。这些应用场景展示了RAG技术在金融和企业管理中的巨大潜力。

衍生相关工作

基于RAG Challenge 2 Datasets，许多经典的研究工作得以展开。例如，研究人员开发了结合文档解析和向量搜索的混合模型，显著提升了问答系统的准确性。此外，该数据集还催生了多篇关于上下文重排序和链式推理的学术论文，进一步推动了RAG技术在实际应用中的优化和普及。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集