WatsonxQA (ProductDocs)

Name: WatsonxQA (ProductDocs)
Creator: IBM Research
Published: 2025-05-06 19:47:52
License: 暂无描述

arXiv2025-05-06 更新2025-05-08 收录

下载链接：

https://huggingface.co/datasets/ibm-research/watsonxDocsQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由IBM Research收集，用于研究检索增强生成(RAG)超参数优化。这是一个基于企业产品文档的新开源数据集，包含从1144页HTML产品文档生成的5534个子文档。数据集包括75个问答对和金标准文档标签，其中25个由两位主题专家生成，其余的则是通过合成并经过两位作者的手动过滤和审查。这些数据集在许多方面都表现出多样性，它们代表不同的领域——研究论文、生物医学文档、维基百科页面和企业数据。它们在问题和答案长度上也有所不同；例如，MiniWiki的答案相对较短，而ClapNQ是专门为具有长答案而构建的。语料库的大小也各不相同，反映了在小型或大型文档集上的真实世界检索场景。每个基准数据集都被分为开发和测试集。为了使计算可行，大型基准数据集（BioASQ和ClapNQ）中的问题数量被限制为开发和测试分别为1000和150。

This dataset was collected by IBM Research for research on retrieval-augmented generation (RAG) hyperparameter optimization. It is a new open-source dataset based on enterprise product documentation, containing 5,534 sub-documents generated from 1,144 pages of HTML product documents. The dataset includes 75 question-answer pairs and gold-standard document labels, of which 25 were generated by two subject matter experts, while the remaining samples were synthesized and manually filtered and reviewed by two authors. The dataset exhibits diversity across multiple dimensions, covering various domains including research papers, biomedical documents, Wikipedia pages, and enterprise data. It also varies in the lengths of questions and answers; for example, MiniWiki features relatively short answers, while ClapNQ is specifically designed for long-form answers. The sizes of the corpora also differ, reflecting real-world retrieval scenarios across both small and large document collections. Each benchmark dataset is split into development and test sets. To ensure computational feasibility, the number of questions in the large benchmark datasets (BioASQ and ClapNQ) is limited to 1,000 for the development set and 150 for the test set, respectively.

提供机构：

IBM Research

创建时间：

2025-05-06

原始信息汇总

watsonxDocsQA 数据集概述

基本信息

许可证: Apache-2.0
数据集地址: https://huggingface.co/datasets/ibm-research/watsonxDocsQA

数据集组成

1. 语料库数据集 (corpus)

数据文件: corpus/train-*
特征:
- doc_id: 文档唯一标识符
- url: 文档来源URL
- title: 文档标题
- document: 文档内容的文本表示
- md_document: 文档内容的Markdown表示
统计信息:
- 训练集大小: 10,625,185字节
- 训练集样本数: 1,144
- 下载大小: 3,327,056字节
- 数据集大小: 10,625,185字节

2. 问答数据集 (question_answers)

数据文件:
- 训练集: question_answers/train-*
- 测试集: question_answers/test-*
特征:
- question_id: 问题唯一标识符
- question: 问题文本
- correct_answer: 正确答案
- correct_answer_document_ids: 正确答案文档ID列表
- ground_truths_contexts: 答案基于的上下文文本列表
统计信息:
- 训练集大小: 60,268字节，45个样本
- 测试集大小: 33,340字节，30个样本
- 下载大小: 58,074字节
- 数据集大小: 93,608字节

数据来源与构建方法

语料库来源: 企业产品文档（爬取自2024年3月的主页）
问答对构建:
- 25个问题: 由两位领域专家人工生成
- 50个问题: 使用tiiuae/falcon-180b模型合成生成，并经过人工筛选和质量审查

引用信息

bibtex @misc{orbach2025analysishyperparameteroptimizationmethods, title={An Analysis of Hyper-Parameter Optimization Methods for Retrieval Augmented Generation}, author={Matan Orbach and Ohad Eytan and Benjamin Sznajder and Ariel Gera and Odellia Boni and Yoav Kantor and Gal Bloch and Omri Levy and Hadas Abraham and Nitzan Barzilay and Eyal Shnarch and Michael E. Factor and Shila Ofek-Koifman and Paula Ta-Shma and Assaf Toledo}, year={2025}, eprint={2505.03452}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.03452}, }

联系方式

邮箱: benjams@il.ibm.com
讨论区: 可在数据集仓库中提交pull request或发起讨论

搜集汇总

数据集介绍

构建方式

WatsonxQA (ProductDocs) 数据集构建基于企业产品文档，包含1144页HTML文档生成的5534个子文档。基准测试集由75个问答对组成，其中25个由领域专家生成，其余通过合成方法生成并经作者手动筛选和审核。数据集的设计旨在模拟真实场景中的检索增强生成（RAG）应用，涵盖了企业业务领域的多样化问题。

特点

WatsonxQA (ProductDocs) 数据集的特点在于其专注于企业产品文档，提供了丰富的业务领域知识。数据集包含多样化的问答对，既有专家生成的高质量数据，也有经过严格筛选的合成数据，确保了数据的可靠性和多样性。此外，数据集的文档和问答对经过精心设计，能够有效支持RAG管道的开发和优化。

使用方法

WatsonxQA (ProductDocs) 数据集可用于开发和评估检索增强生成（RAG）系统。用户可以通过该数据集测试不同的RAG配置，优化超参数以提高问答系统的性能。数据集提供了开发集和测试集，支持在真实场景下验证模型的泛化能力。此外，数据集的开源性使其成为学术界和工业界研究RAG技术的重要资源。

背景与挑战

背景概述

WatsonxQA (ProductDocs) 是由IBM Research团队于2024年发布的一个开源检索增强生成（RAG）数据集，专注于企业产品文档的问答任务。该数据集包含5534个子文档，源自1144页HTML产品文档，并包含75个问答对，其中部分由领域专家生成，部分通过合成方式创建并经过人工审核。WatsonxQA的推出旨在填补现有RAG数据集中在企业文档领域的空白，为研究社区提供了一个真实场景下的基准测试平台。该数据集与AIArxiv、BioASQ等其他四个跨领域数据集共同构成了当前最全面的RAG超参数优化研究基础，其模块化设计特点对推动检索-生成协同优化技术发展具有显著意义。

当前挑战

构建WatsonxQA面临双重挑战：在领域问题层面，企业产品文档通常包含专业术语和复杂逻辑关系，要求RAG系统精准处理技术性内容的检索与生成，避免通用语言模型常见的幻觉问题；在构建过程层面，需解决合成数据与人工标注数据的质量平衡问题，确保25%专家生成答案与75%合成答案的语义一致性和技术准确性。此外，文档分块策略对技术文档的连贯性保持构成挑战，特别是当答案需要跨多个文档块推理时。该数据集还揭示了RAG配置的领域依赖性现象，即最优超参数组合会随产品文档版本更新而漂移，这对实际工业部署提出持续优化要求。

常用场景

经典使用场景

WatsonxQA (ProductDocs) 数据集作为检索增强生成（RAG）技术研究的重要基准，其经典使用场景聚焦于企业级产品文档的智能问答系统开发。该数据集通过提供结构化产品文档和人工标注的问答对，为优化RAG流水线中的超参数（如分块大小、嵌入模型选择）提供了标准化测试环境，尤其在评估不同生成模型对技术文档理解能力时具有不可替代性。

衍生相关工作

该数据集催生了多个经典研究方向，包括AutoRAG-HP等自动化超参数优化框架的改进，以及RAGEval在跨领域评估指标上的延伸应用。其构建方法启发了后续医疗、法律等垂直领域文档数据集的创建，相关成果被CRUD-RAG等跨语言RAG系统广泛引用。

数据集最近研究