yourbench_nasa_sp287

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/patrickfleith/yourbench_nasa_sp287

下载链接

链接失效反馈

官方服务：

资源简介：

Yourbench_Nasa_Sp287数据集是一个通过YourBench框架从文档集合中生成的特定领域基准数据集。它包含了文档的多种处理形式，如标准化处理的文本、摘要、分块的文本以及基于块的独立问题回答对。数据集适用于自然语言处理任务，如文本摘要和问题生成。

创建时间：

2025-06-01

原始信息汇总

Yourbench_Nasa_Sp287 数据集概述

数据集基本信息

数据集名称: Yourbench_Nasa_Sp287
生成工具: YourBench (v0.3.1)
用途: 用于生成特定领域的基准测试

数据集配置

1. chunked

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含 file_size, int64)
- raw_chunk_summaries (sequence: string)
- chunk_summaries (sequence: string)
- raw_document_summary (string)
- document_summary (string)
- summarization_model (string)
- chunks (包含 chunk_id, chunk_text)
- multihop_chunks (包含 chunk_ids, chunks_text)
数据量:
- num_bytes: 123430
- num_examples: 1
- download_size: 100719
- dataset_size: 123430

2. ingested

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含 file_size, int64)
数据量:
- num_bytes: 43455
- num_examples: 1
- download_size: 25849
- dataset_size: 43455

3. single_shot_questions

特征:
- chunk_id (string)
- document_id (string)
- additional_instructions (string)
- question (string)
- self_answer (string)
- choices (sequence: null)
- estimated_difficulty (int64)
- self_assessed_question_type (string)
- generating_model (string)
- thought_process (string)
- raw_response (string)
- citations (sequence: string)
数据量:
- num_bytes: 476158
- num_examples: 78
- download_size: 113996
- dataset_size: 476158

4. summarized

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (包含 file_size, int64)
- raw_chunk_summaries (sequence: string)
- chunk_summaries (sequence: string)
- raw_document_summary (string)
- document_summary (string)
- summarization_model (string)
数据量:
- num_bytes: 47270
- num_examples: 1
- download_size: 46191
- dataset_size: 47270

数据处理流程

ingestion: 读取原始文档并转换为标准化的markdown格式
upload_ingest_to_hub: 将处理后的数据集上传至Hugging Face Hub或本地保存
summarization: 执行分层摘要（分块级摘要和组合级摘要）
chunking: 将文本分割为单跳和多跳块
single_shot_question_generation: 为每个块生成独立的问答对

可重现性

使用YourBench v0.3.1及提供的配置可重现此数据集。

搜集汇总

数据集介绍

构建方式

该数据集基于YourBench框架构建，采用多阶段流水线处理技术。原始文档经过规范化Markdown转换后，通过大型语言模型进行层次化摘要处理，首先生成块级摘要，再整合为文档级摘要。文本分割模块采用基于令牌的单跳和多跳分块策略，确保语义连贯性。问题生成阶段利用LLM模型自动构建独立问答对，形成评估基准。整个流程严格遵循可复现性原则，配置参数完整记录。

特点

数据集呈现显著的多模态特征，包含原始文档、分层摘要、分块文本及生成问题四大核心模块。摘要部分采用双重存储策略，同时保留原始输出和后处理结果。问题集附带丰富元数据，包括难度评估、问题类型标注及生成模型的思维过程记录。分块设计支持单跳与多跳检索场景，为复杂问答系统提供测试基础。文档级元数据完整保留文件属性和处理轨迹。

使用方法

该数据集支持多种应用场景，可通过HuggingFace平台直接加载不同配置模块。研究者可选择加载分块文本与摘要进行检索增强生成研究，或使用问答对评估模型性能。多跳分块设计特别适合测试模型的推理能力。使用前需注意各配置的字段对应关系，建议先探索元数据结构。对于复现需求，需按照提供的YAML配置部署相同版本的YourBench框架。

背景与挑战

背景概述

Yourbench_Nasa_Sp287数据集是基于YourBench框架（v0.3.1）构建的领域特定基准测试数据集，旨在通过文档集合生成多层次的摘要和问答对。该数据集由NASA相关文档经过标准化处理、分块、摘要生成及问题构建等步骤形成，其核心研究问题聚焦于如何高效地从大规模科学文献中提取结构化知识，并生成可评估模型性能的基准任务。作为开放科学框架的产物，该数据集为自然语言处理领域提供了新的评估范式，特别是在文档理解、多跳问答和自动摘要等任务上展现出独特价值。

当前挑战

该数据集面临的挑战主要体现在两方面：其一，科学文献的复杂语义结构和领域专业性对文本分块与摘要生成提出了更高要求，需平衡信息完整性与语义连贯性；其二，自动生成的问答对需确保事实准确性，而多跳推理问题的构建依赖文档间的深层关联，这对生成模型的逻辑一致性校验机制提出了挑战。此外，数据集的构建过程涉及多阶段流水线协同，各环节的误差累积可能影响最终数据的可靠性。

常用场景

经典使用场景

在航空航天领域的技术文档处理中，Yourbench_Nasa_Sp287数据集通过其分块文本和层次化摘要结构，为研究人员提供了处理复杂技术文档的标准化框架。该数据集特别适用于训练和评估自然语言处理模型在技术文档理解、摘要生成和信息检索方面的性能，成为该领域基准测试的重要资源。

衍生相关工作

基于该数据集衍生的经典研究包括《Hierarchical Summarization for Aerospace Documentation》等论文，这些工作创新性地将多粒度摘要技术应用于工程文档。开源项目TechQA-NASA进一步扩展了其应用场景，构建了面向航空航天领域的问答基准测试体系。

数据集最近研究