five

ibm-research/watsonxDocsQA

收藏
Hugging Face2026-03-10 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ibm-research/watsonxDocsQA
下载链接
链接失效反馈
官方服务:
资源简介:
watsonxDocsQA数据集是一个由IBM贡献的开源数据集和基准,该数据集来源于企业产品文档,专门设计用于端到端的检索增强生成(RAG)评估。数据集包括两个部分:文档集和问答对基准。文档集由1144个文本和Markdown文件组成,通过爬取企业文档获得。问答对基准包含75个问题-答案对,带有黄金文档标签和答案。其中25个问题是两位主题专家生成的,另外50个问题是使用tiiuae/falcon-180b模型生成的,然后经过手动筛选和审核以保证质量。

watsonxDocsQA is a new open-source dataset and benchmark contributed by IBM. The dataset is derived from enterprise product documentation and is designed specifically for end-to-end Retrieval-Augmented Generation (RAG) evaluation. The dataset consists of two components: a corpus of 1,144 text and markdown files generated by crawling enterprise documentation, and a set of 75 question-answer (QA) pairs with gold document labels and answers.
提供机构:
ibm-research
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作