yourbench

Hugging Face2025-04-21 更新2025-04-22 收录

下载链接：

https://huggingface.co/datasets/Laurie/yourbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种配置，每种配置都有不同的特征。具体包括：chunked配置，包含文档ID、文本、文件名、元数据（文件大小）、摘要、总结模型、文本块及其信息指标等；ingested配置，包含文档ID、文本、文件名和元数据；lighteval配置，包含问题、答案、问题类别、难度评估等；multi_hop_questions配置，包含文档ID、源文本块ID、问题、自我答案等；single_shot_questions配置，包含文本块ID、文档ID、问题、自我答案等；summarized配置，包含文档ID、文本、文件名、元数据和摘要。各种配置都有训练集划分，且提供了数据的大小信息。

This dataset includes multiple configurations, each with distinct characteristics. The specific configurations are as follows: 1. Chunked configuration: contains document ID, text, file name, metadata (file size), abstract, summarization model, text chunks and their associated information metrics; 2. Ingested configuration: contains document ID, text, file name and metadata; 3. Lighteval configuration: includes questions, answers, question categories, difficulty assessments, etc.; 4. Multi_hop_questions configuration: contains document ID, source text chunk ID, questions, self-generated answers, etc.; 5. Single_shot_questions configuration: includes text chunk ID, document ID, questions, self-generated answers, etc.; 6. Summarized configuration: contains document ID, text, file name, metadata and abstract. All configurations have a training set split, and the size information of the dataset is also provided.

创建时间：

2025-04-20

搜集汇总

数据集介绍

构建方式

yourbench数据集通过多阶段处理流程构建，原始文档经过分块处理生成语义连贯的文本片段，并采用先进的语言模型进行摘要生成。问题生成模块包含单跳和多跳两种类型，通过模型自问自答机制产生高质量QA对，同时保留完整的思维链和引用信息。每个数据单元均附带丰富的元数据，包括文档属性、分块指标和生成模型信息，确保数据溯源性和可解释性。

特点

该数据集最显著的特点是采用多维度评估体系，包含文本可读性指标（如Flesch易读度）、语言复杂度（如Gunning Fog指数）及词汇多样性等量化特征。其多配置架构支持不同应用场景，从原始文档到问题生成形成完整数据链路。特别设计的思维链字段和难度评级为复杂推理任务提供研究基础，而分块级别的语言学分析指标为文本理解研究开辟新维度。

使用方法

使用该数据集时可根据研究目标选择不同配置：'ingested'提供原始文档，'summarized'包含模型生成的摘要，'lighteval'配置适合问答系统评估。多跳问题配置需结合分块信息进行推理路径分析，单跳问题则适用于基础QA任务。所有数据字段均采用结构化存储，通过标准接口可获取文档关联的所有衍生数据，建议根据chunk_info_metrics筛选适合难度的文本片段进行实验。

背景与挑战

背景概述

yourbench数据集是一个专注于文本处理与多跳问答任务的专业数据集，由前沿研究团队构建，旨在推动自然语言处理领域的发展。该数据集通过整合文档摘要、分块处理、单跳与多跳问答等多种任务，为研究者提供了丰富的文本分析资源。其核心研究问题聚焦于如何提升模型在复杂问答场景中的推理能力与文本理解深度，对促进自动问答系统和文本理解技术的进步具有显著影响力。

当前挑战

yourbench数据集面临的挑战主要体现在两个方面：领域问题的复杂性与构建过程的精细度。在领域问题方面，多跳问答任务要求模型具备跨段落推理能力，这对现有自然语言处理技术提出了较高要求。构建过程中，如何确保文档分块的语义完整性、摘要的准确性以及问答对的质量控制，均是团队需要解决的关键技术难题。此外，数据集中各类文本指标的标准化计算与多模型生成内容的协调统一，也为数据集的构建增加了复杂性。

常用场景

经典使用场景

在自然语言处理领域，yourbench数据集以其丰富的文本结构和多维度的元数据，成为评估和训练文本摘要、问答系统以及多跳推理任务的理想选择。数据集中的文档分块、摘要生成以及问题-答案对的设计，为研究者提供了模拟真实场景下信息检索与理解的实验环境。其经典使用场景包括测试模型在长文本理解、信息抽取以及复杂问题解答上的性能。

实际应用

在实际应用中，yourbench数据集能够支持智能客服系统的开发，通过其多跳问题设计提升系统对复杂查询的理解能力。同时，数据集的摘要和分块信息可用于优化搜索引擎的片段生成功能，提高信息检索效率。教育领域亦可利用其问题-答案对构建自适应学习系统。

衍生相关工作

基于yourbench数据集，研究者们已经开展了一系列经典工作。其中包括开发新型的多跳问答模型，探索分块文本的语义关联算法，以及构建端到端的自动摘要系统。这些工作不仅推动了相关技术的进步，还衍生出多个针对特定场景的改进版本数据集。

以上内容由遇见数据集搜集并总结生成