yourbench-simple-example
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/alekgomez/yourbench-simple-example
下载链接
链接失效反馈官方服务:
资源简介:
Yourbench Simple Example是一个使用YourBench框架从文档集合中生成的领域特定基准数据集。它包含了经过ingestion步骤处理的原始文档,summarization步骤生成的层次化摘要,chunking步骤分割的基于令牌的单跳和多跳片段,以及single_shot_question_generation步骤生成的独立的问题-答案对。
Yourbench Simple Example is a domain-specific benchmark dataset generated from a document collection using the YourBench framework. It includes raw documents processed via the ingestion step, hierarchical summaries generated by the summarization step, token-based single-hop and multi-hop chunks segmented by the chunking step, as well as standalone question-answer pairs generated via the single_shot_question_generation step.
创建时间:
2025-08-22
原始信息汇总
Yourbench Simple Example 数据集概述
数据集基本信息
- 数据集名称:Yourbench Simple Example
- 生成框架:YourBench (v0.6.0)
- 框架用途:从文档集合生成领域特定基准测试的开源框架
配置结构
数据集包含5个配置,每个配置对应数据处理流水线的不同阶段:
1. chunked 配置
- 特征字段:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含file_size的struct)
- document_summary (string)
- summarization_model (string)
- chunks (包含chunk_id和chunk_text的列表)
- multihop_chunks (包含chunk_ids和chunks_text的列表)
- 数据统计:
- 训练集样本数:1
- 下载大小:251,771字节
- 数据集大小:602,204字节
2. ingested 配置
- 特征字段:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含file_size的struct)
- 数据统计:
- 训练集样本数:1
- 下载大小:78,721字节
- 数据集大小:133,617字节
3. prepared_lighteval 配置
- 特征字段:
- question (string)
- additional_instructions (string)
- ground_truth_answer (string)
- gold (string列表)
- choices (null列表)
- question_category (string)
- kind (string)
- estimated_difficulty (int64)
- citations (string列表)
- document_id (string)
- chunk_ids (string列表)
- question_generating_model (string)
- chunks (string列表)
- document (string)
- document_summary (string)
- 数据统计:
- 训练集样本数:8
- 下载大小:110,385字节
- 数据集大小:1,108,319字节
4. single_shot_questions 配置
- 特征字段:
- document_id (string)
- additional_instructions (string)
- question (string)
- self_answer (string)
- estimated_difficulty (int64)
- self_assessed_question_type (string)
- generating_model (string)
- thought_process (string)
- raw_response (string)
- citations (string列表)
- original_question (null)
- question_rewriting_model (null)
- question_rewriting_rationale (null)
- raw_question_rewriting_response (null)
- chunk_id (string)
- 数据统计:
- 训练集样本数:8
- 下载大小:18,009字节
- 数据集大小:71,626字节
5. summarized 配置
- 特征字段:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含file_size的struct)
- document_summary (string)
- summarization_model (string)
- 数据统计:
- 训练集样本数:1
- 下载大小:79,551字节
- 数据集大小:133,640字节
数据处理流水线步骤
- ingestion:读取原始源文档,转换为标准化markdown格式
- summarization:执行分层摘要(分块级LLM摘要和组合阶段缩减)
- chunking:将文本分割为基于token的单跳和多跳分块
- single_shot_question_generation:使用LLM为每个分块生成独立的问答对
数据文件路径
- chunked配置:chunked/train-*
- ingested配置:ingested/train-*
- prepared_lighteval配置:prepared_lighteval/train-*
- single_shot_questions配置:single_shot_questions/train-*
- summarized配置:summarized/train-*
搜集汇总
数据集介绍

构建方式
在文档智能处理领域,该数据集通过YourBench框架的多阶段流程构建。原始文档经过规范化标记转换后,采用分层摘要策略:先进行块级大型语言模型摘要,再通过组合阶段进行内容精简。随后实施基于令牌的单跳与多跳分块处理,最终利用大型语言模型为每个文本块生成独立的问答对,形成结构化数据。
特点
该数据集具备多维度特征,包含五种配置模式以适应不同研究需求。其核心价值在于融合文档元数据、分层摘要、多跳文本块及智能生成的问题-答案对。每个样本均附带文件标识、模型来源和难度评估等丰富元信息,支持从文档理解到问答生成的完整研究链条。多跳块设计特别适合复杂推理任务的研究。
使用方法
研究者可通过HuggingFace数据集库直接加载不同配置模式,分别适用于文档预处理、摘要分析或问答生成等场景。chunked配置适合文档结构分析,prepared_lighteval专为轻量级评估设计,single_shot_questions则提供即用型问答对。使用时应根据研究目标选择相应配置,并注意各模式的字段差异以确保数据正确解析。
背景与挑战
背景概述
在人工智能领域,高质量基准数据集的构建对推动自然语言处理技术发展具有关键意义。yourbench-simple-example数据集由HuggingFace机构基于其开源框架YourBench(v0.6.0)于近期创建,旨在通过文档集合生成领域特定的评估基准。该数据集聚焦于文档理解与问答任务,通过多阶段流水线处理原始文档,涵盖文档摘要、分块及问题生成等核心环节,为评估大语言模型在复杂文本处理任务中的性能提供了标准化测试平台,对推动文档智能和知识检索技术的发展具有重要价值。
当前挑战
该数据集致力于解决文档级多跳问答与知识推理的评估挑战,其核心难点在于如何确保生成问题的多样性和复杂性,以准确衡量模型对长文档的理解深度。在构建过程中,面临文档结构归一化、跨段落信息关联以及摘要一致性的技术难题,同时需平衡单跳与多跳问题的比例,保证评估任务的全面性。自动生成流程还需克服大型语言模型输出稳定性与答案可验证性的矛盾,确保基准数据的可靠性与可复现性。
常用场景
经典使用场景
在文档智能处理领域,该数据集通过分块化文档结构与多层次摘要生成机制,为大型语言模型提供了标准化的训练与评估框架。其经典应用体现在多跳问答系统的开发过程中,研究者能够基于分块文本与关联问题对,构建复杂的推理链条,有效验证模型在长文档理解与逻辑推理方面的性能表现。
实际应用
在实际应用层面,该数据集支撑了企业级文档管理系统的智能化升级,例如法律文书分析、医疗报告归纳与学术文献检索等场景。其提供的多跳问答与摘要生成能力,可嵌入现有检索增强生成(RAG)流程,显著提升自动化问答系统的准确性与可解释性。
衍生相关工作
基于该数据集的结构设计,已衍生出多项经典研究工作,包括基于多跳推理的检索增强生成模型、层次化文档摘要算法,以及端到端的问答系统评估框架。这些成果进一步拓展至法律、金融等垂直领域,推动了领域自适应与少样本学习技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



