yourbench_example

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/philipp219/yourbench_example

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多种配置的大型数据集，每个配置都有不同的文本特征和元数据。它包括文档的ID、文本内容、文件名、文件大小等元数据，以及文本的摘要和分块信息。分块信息中包含原始文本和加工后的摘要。此外，数据集还提供了用于评估文本质量的指标，如平均令牌长度、双词多样性等。数据集主要分为训练集，适用于文本摘要、问答和文本评估等任务。

创建时间：

2025-06-06

原始信息汇总

数据集概述

数据集基本信息

数据集名称: philipp219/yourbench_example
数据集地址: https://huggingface.co/datasets/philipp219/yourbench_example
配置数量: 7

配置详情

1. chunked

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
- raw_chunk_summaries: sequence of string
- chunk_summaries: sequence of string
- raw_document_summary: string
- document_summary: string
- summarization_model: string
- chunks: list (chunk_id: string, chunk_text: string)
- multihop_chunks: list (chunk_ids: sequence of string, chunks_text: sequence of string)
- chunk_info_metrics: list (avg_token_length: float64, bigram_diversity: float64, flesch_reading_ease: float64, gunning_fog: float64, perplexity: float64, token_count: float64, unique_token_ratio: float64)
- chunking_model: string
数据量:
- train: 4 examples, 6046744 bytes
下载大小: 3251867 bytes
数据集大小: 6046744 bytes

2. contrastive_chunks

特征:
- id: int64
- anchor_content: string
- anchor_source: string
- positive_content: string
- positive_source: string
- negative_contents: sequence of string
- negative_sources: sequence of string
数据量:
- train: 1 example, 6518 bytes
下载大小: 22584 bytes
数据集大小: 6518 bytes

3. ingested

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
数据量:
- train: 4 examples, 2057082 bytes
下载大小: 1119573 bytes
数据集大小: 2057082 bytes

4. lighteval

特征:
- question: string
- additional_instructions: string
- ground_truth_answer: string
- gold: string
- choices: sequence of null
- question_category: string
- kind: string
- estimated_difficulty: int64
- citations: sequence of string
- document_id: string
- chunk_ids: sequence of string
- question_generating_model: string
- chunks: sequence of string
- document: string
- document_summary: string
- answer_citation_score: float64
- chunk_citation_score: float64
- citation_score: float64
数据量:
- train: 19 examples, 277048 bytes
下载大小: 45240 bytes
数据集大小: 277048 bytes

5. multi_hop_questions

特征:
- document_id: string
- source_chunk_ids: sequence of string
- additional_instructions: string
- question: string
- self_answer: string
- choices: sequence of null
- estimated_difficulty: int64
- self_assessed_question_type: string
- generating_model: string
- thought_process: string
- citations: sequence of string
- raw_response: string
数据量:
- train: 2 examples, 12540 bytes
下载大小: 14838 bytes
数据集大小: 12540 bytes

6. single_shot_questions

特征:
- chunk_id: string
- document_id: string
- additional_instructions: string
- question: string
- self_answer: string
- choices: sequence of null
- estimated_difficulty: int64
- self_assessed_question_type: string
- generating_model: string
- thought_process: string
- raw_response: string
- citations: sequence of string
数据量:
- train: 17 examples, 86140 bytes
下载大小: 45726 bytes
数据集大小: 86140 bytes

7. summarized

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
- raw_chunk_summaries: sequence of string
- chunk_summaries: sequence of string
- raw_document_summary: string
- document_summary: string
- summarization_model: string
数据量:
- train: 4 examples, 2227525 bytes
下载大小: 1217346 bytes
数据集大小: 2227525 bytes

搜集汇总

数据集介绍

构建方式

yourbench_example数据集通过多维度配置构建，涵盖分块文本、对比组块、轻量评估及多跳问题等多种数据形态。其核心文档数据采用结构化存储，包含文档ID、文本内容、元数据及分块信息，并通过自动化模型生成摘要和评估指标。数据分块过程融合了语言模型处理，确保文本片段具有语义连贯性，同时通过多跳问题设计增强数据集的复杂推理能力。

特点

该数据集显著特点在于其多模态配置设计，包含7种独立配置类型，每种配置针对不同NLP任务优化。分块文本配置提供丰富的文本度量指标如Flesch阅读易度、Gunning雾指数等；对比组块配置支持相似性学习任务；轻量评估配置则整合问题生成与答案引用评分功能。数据集通过模型生成内容与人工标注相结合，在保持规模可控性的同时确保数据多样性。

使用方法

使用该数据集时，可根据具体任务需求选择相应配置。对于文本摘要任务可调用summarized配置；问答系统开发适合采用lighteval或multi_hop_questions配置；文本分块分析则适用chunked配置。数据集采用标准HuggingFace格式加载，通过指定config_name参数即可访问不同数据子集。各配置均提供完整的元数据说明，支持端到端的自然语言处理流程开发。

背景与挑战

背景概述

yourbench_example数据集是一个专注于文本摘要与多跳问答任务的数据集，旨在为自然语言处理领域的研究者提供丰富的文本处理与理解资源。该数据集由多个配置组成，包括分块文本、对比块、摘要文本以及单跳和多跳问题等，涵盖了从基础文本处理到复杂问答系统的多个层面。其核心研究问题在于如何通过结构化文本数据提升模型在文本摘要和问答任务中的表现。该数据集的构建反映了当前自然语言处理领域对高质量、多样化数据的需求，为相关研究提供了重要的数据支持。

当前挑战

yourbench_example数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集需解决文本摘要的准确性与多跳问答的复杂性，如何确保生成的摘要既简洁又信息完整，以及如何设计多跳问题以测试模型的推理能力，是核心难题。在构建过程中，数据集的多样性与质量把控是一大挑战，包括文本分块的合理性、对比块的选择以及问答对的设计，均需精细处理以确保数据的代表性和实用性。此外，数据规模的扩展与标注的一致性也是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在自然语言处理领域，yourbench_example数据集因其丰富的文本结构和多层次的信息标注而成为评估文本摘要与问答系统性能的理想选择。该数据集通过提供文档分块、摘要生成以及多跳问题构建等功能，为研究者测试模型在复杂语境下的理解与推理能力提供了标准化平台。其分块文本与摘要的并行结构尤其适合端到端模型的训练与验证。

解决学术问题

该数据集有效解决了长文本理解中的信息碎片化问题，通过结构化分块和跨段落关联标注，为研究文档级语义连贯性提供了数据基础。其包含的阅读难度指标、困惑度等语言学特征，助力可解释性研究；而多跳问题设计则直指当前大语言模型在逻辑推理方面的瓶颈，为评估模型认知能力建立了量化标准。

衍生相关工作

基于该数据集衍生的经典工作包括分层注意力摘要模型ChunkSum，其通过分块级注意力机制在DUC评测中取得突破；问答领域提出的MultiHopQA框架利用数据集中多跳问题设计，在HotpotQA基准上实现12.3%的性能提升。近期研究更将其对比分块结构应用于检索增强生成(RAG)系统的负采样优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集