yourbench-simple-example

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/sumuks/yourbench-simple-example

下载链接

链接失效反馈

官方服务：

资源简介：

Yourbench Simple Example是一个使用YourBench框架生成的领域特定基准数据集。该数据集包含文档的摘要、文档文本、文档元数据、文档摘要、摘要模型、文本块、多跳文本块、问题、附加说明、真实答案、黄金答案、选择、问题类别、类型、估计难度、引文、文档ID、文本块ID、问题生成模型、文本块、文档、文档摘要、文档ID、附加说明、问题、自我答案、估计难度、自我评估的问题类型、生成模型、思考过程、原始响应、引文、原始问题、问题重写模型、问题重写理由、原始问题重写响应、文本块ID。数据集被分为训练集，并提供了每个分割的示例数量和字节数。该数据集适用于训练和评估模型，如文档摘要、问题生成和答案生成。

创建时间：

2025-07-31

原始信息汇总

Yourbench Simple Example 数据集概述

数据集基本信息

数据集名称: Yourbench Simple Example
框架版本: YourBench v0.4.3
用途: 从文档集合生成领域特定基准测试

数据集配置

数据集包含以下5种配置：

1. chunked

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size int64)
- document_summary (string)
- summarization_model (string)
- chunks (list: chunk_id string, chunk_text string)
- multihop_chunks (list: chunk_ids list:string, chunks_text list:string)
数据量:
- 训练集: 1个样本，673,845字节
- 下载大小: 252,319字节
- 数据集大小: 673,845字节

2. ingested

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size int64)
数据量:
- 训练集: 1个样本，133,617字节
- 下载大小: 78,760字节
- 数据集大小: 133,617字节

3. prepared_lighteval

特征:
- question (string)
- additional_instructions (string)
- ground_truth_answer (string)
- gold (list:string)
- choices (list:null)
- question_category (string)
- kind (string)
- estimated_difficulty (int64)
- citations (list:string)
- document_id (string)
- chunk_ids (list:string)
- question_generating_model (string)
- chunks (list:string)
- document (string)
- document_summary (string)
数据量:
- 训练集: 50个样本，8,171,533字节
- 下载大小: 223,961字节
- 数据集大小: 8,171,533字节

4. single_shot_questions

特征:
- document_id (string)
- additional_instructions (string)
- question (string)
- self_answer (string)
- estimated_difficulty (int64)
- self_assessed_question_type (string)
- generating_model (string)
- thought_process (string)
- raw_response (string)
- citations (list:string)
- original_question (null)
- question_rewriting_model (null)
- question_rewriting_rationale (null)
- raw_question_rewriting_response (null)
- chunk_id (string)
数据量:
- 训练集: 50个样本，1,040,000字节
- 下载大小: 87,719字节
- 数据集大小: 1,040,000字节

5. summarized

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size int64)
- document_summary (string)
- summarization_model (string)
数据量:
- 训练集: 1个样本，133,640字节
- 下载大小: 79,610字节
- 数据集大小: 133,640字节

数据处理流程

ingestion: 读取原始文档，转换为标准化markdown格式
summarization: 执行分层摘要(分块级LLM摘要+组合阶段缩减)
chunking: 将文本分割为基于token的单跳和多跳块
single_shot_question_generation: 使用LLM为每个块生成独立的问题-答案对

支持的文件格式

.md, .txt, .html, .htm, .pdf
.docx, .doc, .pptx, .ppt
.xlsx, .xls, .rtf, .odt

搜集汇总

数据集介绍

构建方式

该数据集采用YourBench框架(v0.4.3)构建，通过系统化的文档处理流程实现知识结构化。原始文档经过标准化Markdown转换后，依次进行层次化摘要生成、语义分块处理，最终通过大语言模型生成单跳和多跳的问题-答案对。整个流程包含文档摄取、摘要生成、分块处理以及问题生成四个关键环节，每个环节均采用模块化设计并保留完整的元数据信息。

使用方法

该数据集支持端到端的文档理解评估，研究者可通过HuggingFace接口直接加载不同配置的数据形态。对于摘要质量评估，可选用summarized配置；文档分块分析推荐使用chunked配置；而prepared_lighteval配置则提供完整的问答评估框架。使用时应根据任务需求选择适当的数据切片，注意各配置间通过document_id建立的关联关系，以实现跨模态的联合分析。

背景与挑战

背景概述

yourbench-simple-example数据集由HuggingFace社区成员sumuks基于YourBench框架（v0.4.3）构建，该框架是专为文档集合生成领域特定基准的开源工具。数据集通过多阶段流水线处理，包括文档规范化、分层摘要生成、语义分块以及单跳/多跳问题构建，旨在为自然语言处理领域提供可复用的评估基准。其核心价值在于将非结构化文档转化为结构化评估任务，为文档理解、问答系统等下游任务提供标准化测试环境。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决长文档语义连贯性保持与多跳推理的平衡问题，这对评估模型的上下文理解能力提出更高要求；在构建过程中，分层摘要的精度控制、多跳分块的逻辑关联性标注，以及生成问题的难度分级均需精细设计。此外，文档来源的异构性导致预处理阶段需处理PDF、HTML等多种格式的标准化转换，这对数据质量的一致性构成显著挑战。

常用场景

经典使用场景

在自然语言处理领域，yourbench-simple-example数据集为研究者提供了标准化的文档处理流程验证平台。其多阶段处理架构（包括文档归一化、分层摘要、分块处理及问题生成）特别适合用于测试信息检索系统的语义连贯性保持能力。该数据集通过预设的文档分析、摘要生成和问题设计模块，为评估模型在复杂文本理解任务中的表现提供了结构化基准。

解决学术问题

该数据集有效解决了文档理解评估中缺乏标准化测试框架的难题。通过提供从原始文档到问题答案对的完整处理链条，研究者能够系统性地检验模型在语义分块、多跳推理和开放域问答等关键任务上的性能。其层级化摘要机制和难度分级的问题集，为衡量模型对长文本深层语义的把握程度提供了量化工具。

实际应用

在智能客服系统开发中，该数据集的分块策略可直接应用于知识库构建，确保FAQ生成时保持语义完整性。教育科技领域则利用其问题生成模块自动创建阅读理解题库，其中难度分级机制能适配不同学习阶段的需求。企业知识管理场景下，其文档摘要架构可优化内部文档检索效率。

数据集最近研究