docs-eval-v1

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Enscrive-IO/docs-eval-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Enscrive Docs Eval — v1 是一个专门用于评估神经搜索和检索增强生成（RAG）系统性能的基准数据集，其核心目标是衡量系统对 Enscrive（一个开发者平台）官方 API 文档（v1 版本）的检索准确性。数据集模拟了开发者在集成 Enscrive API 时可能提出的真实问题，内容基于 Enscrive 开发者文档的 11 个核心 Markdown 文件（如 `corpora.md`、`auth.md`、`search.md` 等），这些文件构成了检索的源文档库。数据集包含 44 个精心设计的查询，每个查询都关联了最能回答该问题的源文档文件名及其内部特定章节（H2/H3 锚点），并提供了相关性判断（qrels，分数为 1.0）。数据采用标准的 BeIR 基准格式组织，包括文档语料库（含 `_id`、`title`、`text` 字段）、查询集（含 `_id`、`text` 字段）和查询-文档相关性标注集。此外，数据集还提供了 Croissant 1.0 元数据描述符以实现标准化互操作，以及一个扁平化的 `qa_pairs.jsonl` 文件以供便捷使用。该数据集主要用于文档检索任务的评估，支持的典型评估指标包括平均倒数排名（MRR）、前10召回率（Recall@10）和归一化折损累计增益（nDCG@10）。数据集的创建采用了由大语言模型（Anthropic Opus）驱动的两阶段流程（草案生成和独立审核），旨在确保查询的自然性和多样性。评估结果显示，该语料库的检索性能已接近天花板。数据集遵循 CC-BY-4.0 许可协议。

Enscrive Docs Eval — v1 is a benchmark dataset specifically designed for evaluating the performance of neural search and Retrieval-Augmented Generation (RAG) systems, with the core objective of measuring retrieval accuracy for Enscrive (a developer platform) official API documentation (v1 version). The dataset simulates real-world questions that developers might ask when integrating Enscrive API. It is based on 11 core Markdown files from the Enscrive developer documentation (such as `corpora.md`, `auth.md`, `search.md`, etc.), which form the source document corpus for retrieval. The dataset centers around 44 carefully crafted queries, each explicitly linked to the source document filename and specific sections (H2/H3 anchors) that best answer the question, along with corresponding relevance judgments (qrels, with a score of 1.0). The data is organized in the standard BeIR benchmark format, comprising three main parts: a document corpus (with `_id`, `title`, `text` fields), a query set (with `_id`, `text` fields), and a query-document relevance annotation set. Additionally, the dataset provides a Croissant 1.0 metadata descriptor for standardized interoperability and a flattened `qa_pairs.jsonl` file for convenient use. This dataset is primarily used for evaluating document retrieval tasks, supporting typical evaluation metrics such as Mean Reciprocal Rank (MRR), Recall@10, and Normalized Discounted Cumulative Gain (nDCG@10). The dataset creation employs a two-stage process driven by a large language model (Anthropic Opus) (draft generation and independent review), aiming to ensure query naturalness and diversity. Evaluation results indicate that the retrieval performance of this corpus is near ceiling. The dataset is licensed under CC-BY-4.0.

创建时间：

2026-05-14

原始信息汇总

数据集概述：Enscrive Docs Eval — v1

基本信息

数据集名称：Enscrive Docs Eval — v1
许可证：CC-BY-4.0
语言：英文（en）
任务类别：文本检索（text-retrieval），具体为文档检索（document-retrieval）
标签：神经搜索、基准测试、文档、信息检索、RAG
数据规模：小规模（n<1K）

数据集描述

该数据集是针对 Enscrive 开发者文档的问答评估数据集。查询代表开发者在集成 Enscrive 的 /v1 API 时可能键入的典型问题。每个查询都配对了预期源文档（Markdown 文件名）以及该文档中最直接回答该问题的 H2/H3 章节锚点。

数据状态

版本：v1.0.0（2026-05-13）
规模：包含 44 个查询/预期文档对，源自 11 个源 Markdown 文件。

文件结构

数据集采用 BeIR 格式，通过一个 Croissant 清单文件引用三个 Parquet 文件：

文件路径	用途
`data/corpus.parquet`	11 个源文档（`_id`, `text`, `title`）
`data/queries.parquet`	44 个评估查询（`_id`, `text`）
`data/qrels.parquet`	44 个相关性判断（`query-id`, `corpus-id`, `score`）
`croissant.json`	Croissant 1.0 清单，将以上三者绑定
`data/qa_pairs.jsonl` / `data/qa_pairs.parquet`	扁平化的非规范化视图，便于使用
`README.md`	本卡片

记录格式（BeIR Croissant）

corpus（语料库）：
- _id（字符串）：源 Markdown 文件名
- text（字符串）：完整的 Markdown 正文（不含前置元数据）
- title（字符串）：来自 YAML 前置元数据的页面标题
queries（查询）：
- _id（字符串）：稳定查询标识符（qNNN）
- text（字符串）：开发者键入的查询文本
qrels（相关性判断）：
- query-id（字符串）：外键，关联 queries._id
- corpus-id（字符串）：外键，关联 corpus._id
- score（浮点数）：相关性评分（本数据集每个查询仅一个预期文档，评分为 1.0）

源语料库

数据集涵盖 11 个 Markdown 文件（来自 enscrive-developer/docs/public/ 目录）： index.md, principles.md, concepts.md, auth.md, errors.md, corpora.md, voices.md, search.md, ingest.md, jobs.md, batch-sets.md。

这些文件与 api.enscrive.io/docs 的 /docs 端点提供的文档相同。

方法论

创作流程：两阶段流水线，两阶段均使用 Anthropic Opus。
1. 草稿：Opus 生成 30-60 条实际开发者可能键入的查询，注重措辞、缩写和意图的多样性。
2. 新视角精炼：单独的 Opus 会话根据三条规则（无逐字引用、无单一语块构造痕迹、无模型式表达）审查并编辑或拒绝查询。
结果：精炼后共产生 44 条查询。
评估指标：该数据集用于计算以下指标：
- MRR：预期文档在所有查询中的平均倒数排名。
- recall@10：预期文档出现在前 10 个结果中的查询比例。
- nDCG@10：排名第 10 位的归一化折损累计增益。

数据覆盖范围

覆盖范围根据实际开发者兴趣加权。每个源文件的查询数量如下：

源文件	查询数量
`corpora.md`	7
`ingest.md`	7
`search.md`	6
`voices.md`	5
`jobs.md`	5
`batch-sets.md`	4
`auth.md`	3
`errors.md`	2
`concepts.md`	2
`principles.md`	2
`index.md`	1
总计	44

基准结果

经过三次评估迭代，平台默认语音配置达到了检索上限：Recall@10 = 1.000, MRR = 0.8625, nDCG@10 = 0.8976。

引用

如需引用该数据集，请使用以下 BibTeX 格式：

bibtex @misc{enscrive_docs_eval_v1_2026, author = {Enscrive}, title = {Enscrive Docs Eval — v1}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/Enscrive-IO/docs-eval-v1} }

搜集汇总

数据集介绍

构建方式

该数据集专为评估Enscrive开发者文档的神经检索质量而构建，遵循BeIR标准格式。数据源自Enscrive API的11篇Markdown源文档，覆盖开发者集成过程中的核心主题。构建过程采用两阶段流水线：首先由Anthropic Opus模型依据真实开发者查询习惯生成30至60条多样化问题，涵盖不同措辞、缩写与意图；随后经由另一独立Opus会话依据三项严格规则——禁止逐字引用原文、禁止单一片段化表述、禁止模型化造句——进行审查与修正。经筛选后最终保留44条查询-文档配对，对应11个源文件。每条查询均关联唯一的预期文档和具体章节锚点，标注相关性等级为1.0。

特点

该数据集以44条高质量查询-文档配对为核心，呈现出显著的领域聚焦性与标注精确性。查询覆盖了开发者最常接触的端点，如corpora、ingest、search等，权重依据真实使用频率分配，确保评估贴合实际应用场景。数据集采用BeIR标准结构，包含corpus、queries、qrels三个Parquet文件，并附带Croissant 1.0清单，便于集成与复现。评估指标涵盖MRR、Recall@10和nDCG@10，基准测试结果显示平台默认配置已达到检索天花板：Recall@10为1.000，MRR为0.8625，nDCG@10为0.8976，彰显该数据集在性能判别上的精准性。

使用方法

用户可通过Hugging Face数据集加载工具直接使用该数据集，代码中指定路径为'Enscrive-IO/docs-eval-v1'。数据以BeIR格式存储，支持加载corpus、queries和qrels三个核心组件，便于与现有检索评估框架（如BeIR、pyserini）无缝对接。对于需要快速测试的用户，数据集同时提供平展化的qa_pairs.jsonl和qa_pairs.parquet文件，可直接读取进行模型推理。使用时应以MRR、Recall@10和nDCG@10作为评估标准，将系统检索结果与qrels中的相关性判断进行对比，从而衡量文档检索系统的有效性。

背景与挑战

背景概述

随着神经检索技术在文档搜索中的广泛应用，如何评估面向特定API文档的检索系统性能成为一项关键挑战。由Enscrive团队于2026年创建的docs-eval-v1数据集，专为评估其开发者文档的神经搜索质量而设计。该数据集包含44个查询-预期文档对，覆盖11个源Markdown文件，查询内容模拟开发者在集成Enscrive的/v1 API时的典型问题。数据集采用BeIR格式，支持MRR、recall@10和nDCG@10等标准检索指标的计算。其发布为衡量文档检索系统的实际效果提供了标准化基准，尤其适用于检索增强生成（RAG）场景下的文档检索评估，对API文档的可用性和检索技术优化具有重要参考价值。

当前挑战

该数据集所解决的领域问题在于提升API文档检索的精确性与相关性。开发者面对日益复杂的API文档，常因检索系统无法准确匹配意图而影响集成效率。构建过程中，数据集面临的挑战包括：生成真实反映开发者查询习惯的多样化表述，避免直接引用原文或模型化表达；确保查询与文档锚点的精准关联，处理标签歧义和跨页面重叠问题；平衡不同文档的查询覆盖权重，优先覆盖高频使用场景。此外，小规模数据集（44个查询）对评估统计显著性构成限制，且需要持续更新以匹配API演进，维持基准的有效性。

常用场景

经典使用场景

在神经检索与文档级信息获取的交叉领域中，Enscrive Docs Eval v1 数据集经典地被用于评估基于稠密向量的检索系统在技术文档场景下的表现。该数据集精心构建了44条来自开发者真实查询的文本，每条查询均与目标文档中的具体章节锚点一一对应，形成低资源、高精度的评估基准。研究者常借助该数据集衡量检索模型在细粒度文档片段级匹配上的能力，尤其关注召回率、排序鲁棒性与跨段落辨识精度，从而推动检索模型从粗粒度篇章匹配向精准语义定位迈进。

解决学术问题

该数据集直面当前检索评价体系中常见的两个瓶颈：一是查询与文档间的语义对应精度不足，二是技术文档中多文档、多标题结构带来的歧异性标注难题。通过提供包含11份完整Markdown源文档、44条强匹配查询及其精确章节锚定，Docs Eval v1 为学术研究提供了一种可复现、低噪声的评估工具，支持对检索模型在隐性语义重叠、跨页面标题模糊性等边缘场景下的鲁棒性进行系统分析。其方法论中强调的迭代精炼策略与失败分类体系，为后续构建高保真度的文档检索基准树立了方法学典范。

衍生相关工作

Docs Eval v1 的发布催生了一系列聚焦于技术文档检索的衍生研究。受其方法论启发，多篇工作探讨了如何利用大语言模型进行查询生成与标注清洗，进一步完善自动化评测流程。同时，该数据集也常被用作对比实验的基准，评估稀疏检索和稠密检索在低资源、细粒度文档检索任务上的差距。部分研究者参照其覆盖权重策略，设计出针对API文档的个性化检索模型，在开发者问答系统中取得显著效果。更为深远的是，该数据集所倡导的锚点级精细评价范式，正在逐步渗透到检索增强生成系统的流水线验证中，成为衡量检索与生成协同成效的新型标尺。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集