five

yourbench-simple-example

收藏
Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/sumuks/yourbench-simple-example
下载链接
链接失效反馈
官方服务:
资源简介:
Yourbench Simple Example是一个使用YourBench框架生成的领域特定基准数据集。该数据集包含文档的摘要、文档文本、文档元数据、文档摘要、摘要模型、文本块、多跳文本块、问题、附加说明、真实答案、黄金答案、选择、问题类别、类型、估计难度、引文、文档ID、文本块ID、问题生成模型、文本块、文档、文档摘要、文档ID、附加说明、问题、自我答案、估计难度、自我评估的问题类型、生成模型、思考过程、原始响应、引文、原始问题、问题重写模型、问题重写理由、原始问题重写响应、文本块ID。数据集被分为训练集,并提供了每个分割的示例数量和字节数。该数据集适用于训练和评估模型,如文档摘要、问题生成和答案生成。
创建时间:
2025-07-31
原始信息汇总

Yourbench Simple Example 数据集概述

数据集基本信息

  • 数据集名称: Yourbench Simple Example
  • 框架版本: YourBench v0.4.3
  • 用途: 从文档集合生成领域特定基准测试

数据集配置

数据集包含以下5种配置:

1. chunked

  • 特征:
    • document_id (string)
    • document_text (string)
    • document_filename (string)
    • document_metadata (struct: file_size int64)
    • document_summary (string)
    • summarization_model (string)
    • chunks (list: chunk_id string, chunk_text string)
    • multihop_chunks (list: chunk_ids list:string, chunks_text list:string)
  • 数据量:
    • 训练集: 1个样本,673,845字节
    • 下载大小: 252,319字节
    • 数据集大小: 673,845字节

2. ingested

  • 特征:
    • document_id (string)
    • document_text (string)
    • document_filename (string)
    • document_metadata (struct: file_size int64)
  • 数据量:
    • 训练集: 1个样本,133,617字节
    • 下载大小: 78,760字节
    • 数据集大小: 133,617字节

3. prepared_lighteval

  • 特征:
    • question (string)
    • additional_instructions (string)
    • ground_truth_answer (string)
    • gold (list:string)
    • choices (list:null)
    • question_category (string)
    • kind (string)
    • estimated_difficulty (int64)
    • citations (list:string)
    • document_id (string)
    • chunk_ids (list:string)
    • question_generating_model (string)
    • chunks (list:string)
    • document (string)
    • document_summary (string)
  • 数据量:
    • 训练集: 50个样本,8,171,533字节
    • 下载大小: 223,961字节
    • 数据集大小: 8,171,533字节

4. single_shot_questions

  • 特征:
    • document_id (string)
    • additional_instructions (string)
    • question (string)
    • self_answer (string)
    • estimated_difficulty (int64)
    • self_assessed_question_type (string)
    • generating_model (string)
    • thought_process (string)
    • raw_response (string)
    • citations (list:string)
    • original_question (null)
    • question_rewriting_model (null)
    • question_rewriting_rationale (null)
    • raw_question_rewriting_response (null)
    • chunk_id (string)
  • 数据量:
    • 训练集: 50个样本,1,040,000字节
    • 下载大小: 87,719字节
    • 数据集大小: 1,040,000字节

5. summarized

  • 特征:
    • document_id (string)
    • document_text (string)
    • document_filename (string)
    • document_metadata (struct: file_size int64)
    • document_summary (string)
    • summarization_model (string)
  • 数据量:
    • 训练集: 1个样本,133,640字节
    • 下载大小: 79,610字节
    • 数据集大小: 133,640字节

数据处理流程

  1. ingestion: 读取原始文档,转换为标准化markdown格式
  2. summarization: 执行分层摘要(分块级LLM摘要+组合阶段缩减)
  3. chunking: 将文本分割为基于token的单跳和多跳块
  4. single_shot_question_generation: 使用LLM为每个块生成独立的问题-答案对

支持的文件格式

  • .md, .txt, .html, .htm, .pdf
  • .docx, .doc, .pptx, .ppt
  • .xlsx, .xls, .rtf, .odt
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集采用YourBench框架(v0.4.3)构建,通过系统化的文档处理流程实现知识结构化。原始文档经过标准化Markdown转换后,依次进行层次化摘要生成、语义分块处理,最终通过大语言模型生成单跳和多跳的问题-答案对。整个流程包含文档摄取、摘要生成、分块处理以及问题生成四个关键环节,每个环节均采用模块化设计并保留完整的元数据信息。
使用方法
该数据集支持端到端的文档理解评估,研究者可通过HuggingFace接口直接加载不同配置的数据形态。对于摘要质量评估,可选用summarized配置;文档分块分析推荐使用chunked配置;而prepared_lighteval配置则提供完整的问答评估框架。使用时应根据任务需求选择适当的数据切片,注意各配置间通过document_id建立的关联关系,以实现跨模态的联合分析。
背景与挑战
背景概述
yourbench-simple-example数据集由HuggingFace社区成员sumuks基于YourBench框架(v0.4.3)构建,该框架是专为文档集合生成领域特定基准的开源工具。数据集通过多阶段流水线处理,包括文档规范化、分层摘要生成、语义分块以及单跳/多跳问题构建,旨在为自然语言处理领域提供可复用的评估基准。其核心价值在于将非结构化文档转化为结构化评估任务,为文档理解、问答系统等下游任务提供标准化测试环境。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决长文档语义连贯性保持与多跳推理的平衡问题,这对评估模型的上下文理解能力提出更高要求;在构建过程中,分层摘要的精度控制、多跳分块的逻辑关联性标注,以及生成问题的难度分级均需精细设计。此外,文档来源的异构性导致预处理阶段需处理PDF、HTML等多种格式的标准化转换,这对数据质量的一致性构成显著挑战。
常用场景
经典使用场景
在自然语言处理领域,yourbench-simple-example数据集为研究者提供了标准化的文档处理流程验证平台。其多阶段处理架构(包括文档归一化、分层摘要、分块处理及问题生成)特别适合用于测试信息检索系统的语义连贯性保持能力。该数据集通过预设的文档分析、摘要生成和问题设计模块,为评估模型在复杂文本理解任务中的表现提供了结构化基准。
解决学术问题
该数据集有效解决了文档理解评估中缺乏标准化测试框架的难题。通过提供从原始文档到问题答案对的完整处理链条,研究者能够系统性地检验模型在语义分块、多跳推理和开放域问答等关键任务上的性能。其层级化摘要机制和难度分级的问题集,为衡量模型对长文本深层语义的把握程度提供了量化工具。
实际应用
在智能客服系统开发中,该数据集的分块策略可直接应用于知识库构建,确保FAQ生成时保持语义完整性。教育科技领域则利用其问题生成模块自动创建阅读理解题库,其中难度分级机制能适配不同学习阶段的需求。企业知识管理场景下,其文档摘要架构可优化内部文档检索效率。
数据集最近研究
最新研究方向
在自然语言处理领域,yourbench-simple-example数据集为文档理解与问答系统研究提供了新的实验平台。该数据集通过层次化摘要、多跳分块和开放式问题生成等创新流程,显著提升了模型对长文档语义结构的捕捉能力。当前研究热点集中在基于该数据集的多跳推理机制优化,探索如何通过文档分块间的语义关联提升复杂问题解答的准确性。与此同时,结合大语言模型的零样本问题生成技术,正在推动开放式问答评估范式的革新,为自动评测系统的可解释性研究提供重要数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作