IndustryRAG-Dataset
收藏github2026-02-20 更新2026-02-21 收录
下载链接:
https://github.com/onyx-dot-app/IndustryRAG-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
检索增强生成(RAG)已成为将大型语言模型应用于训练期间未获得的信息的标准方法。虽然许多现有数据集和基准测试专注于网络或其他公共来源,但仍未广泛采用能够真实反映公司内部知识性质的数据集。与此同时,初创企业、企业和研究人员越来越多地开发专为处理此类专有数据而设计的代理。为了帮助缩小这一差距,我们引入了一个新的数据集,模拟企业知识环境,并提供了一个灵活的框架,用于根据特定用例扩展和定制数据。
Retrieval-Augmented Generation (RAG) has emerged as the standard paradigm for applying Large Language Models (LLMs) to information not acquired during their pre-training phase. While numerous existing datasets and benchmarks prioritize web or other public data sources, datasets that authentically mirror the nature of internal corporate knowledge remain underadopted. Concurrently, startups, enterprises, and researchers are increasingly developing AI Agents specifically tailored to process such proprietary data. To address this gap, we propose a novel dataset that simulates enterprise knowledge environments, alongside a flexible framework for expanding and customizing the data to align with specific use cases.
创建时间:
2026-02-19
原始信息汇总
IndustryRAG-Bench 数据集概述
数据集基本信息
- 数据集名称: IndustryRAG-Bench
- 发布者/组织: Onyx
- 许可证: MIT
- 数据集访问: 通过 GitHub 最新发布版本下载
- 相关链接:
- 官方网站: https://onyx.app/
- 排行榜: https://huggingface.co/spaces/onyx-dot-app/IndustryRAG-Bench-Leaderboard
- 论文草稿: 参见 paper_draft.md
数据集内容与规模
- 文档总数: 略超过 500,000 份文档
- 问题总数: 500 个问题
- 模拟场景: 模拟一家名为 "Redwood Inference" 的提供 AI 模型推理服务的公司
- 核心目的: 帮助团队评估其 RAG 系统,并在真实的企业数据上微调智能体。代码还提供了为不同行业、不同规模公司等生成类似数据集的方法。
数据来源与分布
数据集包含以下来源的文档,具体分布如下:
| 来源类型 | 近似数量 | 描述 |
|---|---|---|
| Slack | 275,000 | 内部频道和团队讨论 |
| Gmail | 120,000 | 来自管理层、销售、领导和独立贡献者的电子邮件线程 |
| Linear | 35,000 | 工程、产品和设计的项目管理工单 |
| Google Drive | 25,000 | 共享文件和协作文档 |
| Hubspot | 15,000 | 销售客户关系管理记录 |
| Fireflies | 10,000 | 内部和外部会议的会议记录 |
| GitHub | 8,000 | 不同代码仓库的拉取请求和评论 |
| Jira | 6,000 | 内部和面向客户的支持工单 |
| Confluence | 5,000 | 维基、操作手册和结构化/精炼的文档 |
语料库广泛覆盖了业务活动的关键领域,包括但不限于规划、工程、文档、销售、客户成功、内部讨论、电子邮件等。
问题类别
问题分为 10 个类别,具体如下:
| 类别 | 数量 | 描述 |
|---|---|---|
| Basic | 175 | 简单问题,具有单一的基准真实文档 |
| Semantic | 125 | 与 Basic 类似但更迂回,关键词/短语重叠较少,且没有 giveaway 类型的关键词 |
| Intra-Document Reasoning | 40 | 需要结合单个较长文档中多个相距较远部分的信息 |
| Project Related | 40 | 汇总公司内单个项目/计划的相关文档知识 |
| Constrained | 30 | 具有多个相关文档但带有限定条件的问题,这些条件使得除一个答案外其他所有答案都不合格 |
| Conflicting Info | 20 | 文档直接相互矛盾的问题。要求系统给出完整且正确的答案 |
| Completeness | 20 | 需要获取所有相关文档(不超过 10 份)才能提供正确答案的问题 |
| Miscellaneous | 20 | 针对非正式、离题或组织松散文档的问题 |
| High Level | 10 | 高级别问题,答案不在任何单一文档中。注意:这些问题没有任何基准真实文档 |
| Info Not Found | 20 | 答案不可用的问题。注意:这些问题没有任何基准真实文档 |
额外说明:
- 文件
extra_questions.jsonl中包含额外的 100 个依赖于元数据的问题,供对元数据感知 RAG 感兴趣的团队使用。这些问题被排除在排行榜之外,因为其评估标准与核心的检索导向基准不同。
数据集使用
- 下载地址: 从 GitHub 最新发布版本下载
- 主要文件:
all_documents.zip: 包含所有文档的单个归档文件<source_type>_slice_<slice_number>.zip: 单独的 zip 文件,每个文件包含最多 5000 个文档(无嵌套目录结构)
- 问题集: 位于
questions.jsonl文件中,也可在发布版本中找到 - 答案评估: 参考
answer_evaluation目录下的README.md - 快速入门: 更多使用信息请参考
quickstart.md
数据集设计原则
详细过程请参考 methodology.md。数据集设计和生成过程遵循五个原则:
- 跨文档一致性
- 真实的体积分布
- 真实的噪声
- 内部术语
- 跨企业设置的通用性
排行榜与提交
- 排行榜地址: https://huggingface.co/spaces/onyx-dot-app/IndustryRAG-Bench-Leaderboard
- 提交方式: 联系 joachim@onyx.app
- 提交要求:
- 开源: 提供重现结果的指南
- 闭源: 提供一个沙箱或端点,以便发送问题进行验证
- 注意: Onyx 提供基于 RAG 的产品,为避免利益冲突,其自身不参与排行榜排名。
背景与意义
现有的检索增强生成和信息检索数据集主要关注公开可访问的文档集。迄今为止,还没有一个完全专注于公司内部数据的公开可访问数据集。本数据集/仓库旨在提供这样一个数据集。
搜集汇总
数据集介绍
构建方式
在工业知识管理领域,高效检索与生成技术日益成为关键需求。IndustryRAG-Dataset的构建过程体现了严谨的数据工程方法,其核心在于从真实的工业场景中采集多源异构文档,涵盖技术手册、操作指南、故障报告及标准规范等。这些原始资料经过系统的清洗与去噪处理,确保文本质量;随后通过专业标注团队进行结构化解析,提取关键实体、关系与知识片段,并构建起层次化的知识图谱。最终,数据集以统一的格式整合了文本段落、问答对及检索上下文,为检索增强生成任务提供了扎实的语料基础。
特点
该数据集展现出鲜明的领域专属性与实用性。其内容紧密贴合工业制造、设备维护与工艺流程等实际应用场景,涵盖了丰富的专业术语与复杂的技术描述。在结构设计上,数据集不仅提供了高质量的问答对,还包含了与之关联的检索支持文档,模拟了真实环境中的知识查找与整合过程。这种设计使得数据集能够有效支持模型在工业语境下的理解、推理与生成能力评估,为领域特定的RAG系统开发与优化提供了宝贵的基准资源。
使用方法
对于研究人员与开发者而言,该数据集的使用路径清晰而高效。用户可通过提供的加载脚本便捷地导入数据,数据以标准化的JSON或类似格式组织,便于程序化访问。典型应用流程包括:利用检索模块根据查询在支持文档集中定位相关段落,进而驱动生成模型合成准确、连贯的答案。数据集适用于训练端到端的RAG模型、评估不同检索策略的性能,或作为工业知识问答系统的测试基准。使用时应遵循数据划分建议,确保实验的可靠性与可复现性。
背景与挑战
背景概述
随着大型语言模型在通用领域展现出卓越性能,其在垂直行业应用中的知识深度与准确性仍面临显著局限。IndustryRAG-Dataset应运而生,旨在为行业特定检索增强生成技术提供高质量评估基准。该数据集由研究团队于近期构建,聚焦于金融、法律、医疗等知识密集型领域,通过精心设计的真实场景查询与对应标准答案,系统评估模型在复杂专业语境下的信息检索与内容生成能力。其核心在于推动大模型从通用智能向行业专家系统演进,为垂直领域的人工智能应用奠定坚实的评估基础。
当前挑战
该数据集致力于解决垂直行业大模型应用中检索增强生成技术的评估难题,其核心挑战在于如何精准构建覆盖多领域、多粒度且反映真实业务复杂性的查询-答案对。在构建过程中,挑战具体体现为:专业知识的深度与准确性要求极高,需领域专家深度参与以确保知识权威性;查询场景需模拟真实用户意图与语言风格,避免人为简化;答案的构建需兼顾事实准确性、逻辑完备性与表述规范性。此外,跨领域知识的结构化整合与动态更新机制亦是持续面临的挑战。
常用场景
经典使用场景
在工业领域知识检索与问答系统中,IndustryRAG-Dataset常被用作基准数据集,用于评估检索增强生成模型在复杂工业场景下的性能。该数据集涵盖了制造业、能源、供应链等多个垂直行业的专业知识文档与对应查询,研究者通过模拟真实工业咨询流程,测试模型在精准检索与生成方面的能力,从而推动工业智能问答技术的发展。
解决学术问题
该数据集有效解决了工业领域知识管理中的信息碎片化与检索效率低下问题。通过提供结构化与半结构化的行业文档及关联查询,它支持学术界研究如何将大规模语言模型与专业领域知识库结合,提升模型在特定领域的准确性与可靠性,为工业知识自动化处理提供了标准化评估框架。
衍生相关工作
基于IndustryRAG-Dataset,衍生出多项经典研究工作,例如针对工业术语增强的检索模型优化、跨行业知识迁移学习框架,以及多模态工业文档处理系统。这些工作进一步拓展了检索增强生成技术在智能制造与工业互联网中的应用深度,形成了持续演进的学术与技术生态。
以上内容由遇见数据集搜集并总结生成



