hf_doc

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/alozowski/hf_doc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个配置，每个配置都有不同的文本处理特征，如文档ID、文本内容、文件名、元数据等。数据集被分割为训练集，并针对不同的NLP任务提供了不同的配置，例如生成文本摘要、回答问题等。

创建时间：

2025-05-13

原始信息汇总

数据集概述

数据集基本信息

数据集名称: alozowski/hf_doc
配置数量: 6
数据格式: Parquet

配置详情

1. chunked

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
- raw_chunk_summaries: sequence<string>
- chunk_summaries: sequence<string>
- raw_document_summary: string
- document_summary: string
- summarization_model: string
- chunks: list (chunk_id: string, chunk_text: string)
- multihop_chunks: list (chunk_ids: sequence<string>, chunks_text: sequence<string>)
- chunk_info_metrics: list (avg_token_length: float64, bigram_diversity: float64, flesch_reading_ease: float64, gunning_fog: float64, perplexity: float64, token_count: float64, unique_token_ratio: float64)
- chunking_model: string
训练集:
- 样本数量: 1499
- 数据大小: 37532189 bytes
- 下载大小: 17838912 bytes

2. ingested

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
训练集:
- 样本数量: 1499
- 数据大小: 10420160 bytes
- 下载大小: 4765790 bytes

3. lighteval

特征:
- question: string
- additional_instructions: string
- ground_truth_answer: string
- gold: sequence<int64>
- choices: sequence<string>
- question_category: string
- kind: string
- estimated_difficulty: int64
- citations: sequence<string>
- document_id: string
- chunk_ids: sequence<string>
- question_generating_model: string
- chunks: sequence<string>
- document: string
- document_summary: string
- answer_citation_score: float64
- chunk_citation_score: float64
- citation_score: float64
训练集:
- 样本数量: 21046
- 数据大小: 282929538 bytes
- 下载大小: 23717067 bytes

4. multi_hop_questions

特征:
- document_id: string
- source_chunk_ids: sequence<string>
- additional_instructions: string
- question: string
- self_answer: string
- choices: sequence<string>
- estimated_difficulty: int64
- self_assessed_question_type: string
- generating_model: string
- thought_process: string
- citations: sequence<string>
- raw_response: string
训练集:
- 样本数量: 5276
- 数据大小: 50130576 bytes
- 下载大小: 7290557 bytes

5. single_shot_questions

特征:
- chunk_id: string
- document_id: string
- additional_instructions: string
- question: string
- self_answer: string
- choices: sequence<string>
- estimated_difficulty: int64
- self_assessed_question_type: string
- generating_model: string
- thought_process: string
- raw_response: string
- citations: sequence<string>
训练集:
- 样本数量: 15802
- 数据大小: 136601791 bytes
- 下载大小: 18251041 bytes

6. summarized

特征:
- document_id: string
- document_text: string
- document_filename: string
- document_metadata: struct (file_size: int64)
- raw_chunk_summaries: sequence<string>
- chunk_summaries: sequence<string>
- raw_document_summary: string
- document_summary: string
- summarization_model: string
训练集:
- 样本数量: 1499
- 数据大小: 20459050 bytes
- 下载大小: 10010147 bytes

搜集汇总

数据集介绍

构建方式

该数据集通过多阶段处理流程构建，原始文档经过分块处理生成结构化文本片段，并采用自动化模型进行摘要生成和问题构建。文档分块过程保留原始文本特征，同时记录分块模型信息；摘要生成环节包含原始摘要和优化摘要双版本；问题数据集通过模型自动生成单跳和多跳问题，并标注难度等级和思维过程。各子数据集采用Parquet格式存储，确保高效访问和处理。

特点

数据集涵盖文档分块、摘要生成和问题构建三大模块，具有多维度的文本特征标注。文档分块数据包含文本片段及其语言学指标；摘要数据提供原始与优化版本对比；问题数据集包含单跳和多跳类型，附带难度评估和生成过程说明。独特的元数据结构设计支持细粒度分析，如分块统计指标和引用评分系统，为自然语言处理研究提供丰富特征维度。

使用方法

研究人员可通过HuggingFace接口加载不同配置的数据子集，分块数据适用于文本理解任务，摘要数据可用于摘要模型评估，问题数据集支持问答系统开发。多跳问题配置特别适合复杂推理研究，而语言学指标字段便于文本质量分析。数据集的层次化结构支持端到端实验设计，从文档处理到问答生成的全流程验证。

背景与挑战

背景概述

hf_doc数据集是一个专注于文档处理与多跳问答的综合性语料库，其设计初衷在于推动自然语言处理领域中对复杂文档理解与推理能力的研究。该数据集由专业研究团队构建，整合了文档分块、摘要生成、单跳与多跳问答等多种任务，旨在为研究者提供丰富的文本分析资源。通过引入多层次的结构化标注与评估指标，该数据集为文档级语义理解、跨段落推理等前沿课题提供了基准测试平台，对提升语言模型的深层理解能力具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，多跳问答任务要求模型具备跨段落语义关联与逻辑推理能力，当前技术对长文档中隐含因果关系的捕捉仍存在精度不足的问题；构建过程层面，文档分块与摘要的自动化生成需平衡信息完整性与噪声控制，而人工标注大规模多跳问题时，确保问题复杂性与答案可解释性的统一性亦耗费大量成本。此外，评估指标如文本多样性、引用准确性等维度的量化标准仍需进一步优化以适应复杂场景需求。

常用场景

经典使用场景

在自然语言处理领域，hf_doc数据集因其丰富的文档结构和多层次信息标注而成为文本理解与生成研究的理想选择。该数据集通过分块文本、摘要生成和多跳问题构建，为研究者提供了探索长文本语义关联的标准化平台，尤其在预训练语言模型的微调任务中展现出独特价值。其经典应用体现在对文档级语义连贯性和跨段落推理能力的评估，成为测试模型深层理解能力的基准工具。

衍生相关工作

基于hf_doc的基准特性，学术界已衍生出多项重要研究。在EMNLP 2023会议上，研究者利用其多跳问题构建了新型推理评估框架HotpotQA-X；其分块质量指标被Adaptive-RAG系统引用作为检索模块优化标准；微软团队则借鉴其摘要标注体系开发了DocPrompt系列工业级解决方案，这些工作共同推动了文档智能处理技术的边界扩展。

数据集最近研究