NOTAM

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/AirsideLabs/NOTAM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多种配置的数据集，每个配置具有不同的特征，如文档ID、文本、文件名、元数据和文本摘要等。它旨在用于文本摘要、问题生成和回答等任务。数据集分为训练集，并提供了相应的数据文件路径。

创建时间：

2025-05-16

原始信息汇总

数据集概述：AirsideLabs/NOTAM

数据集配置

数据集包含6种配置，每种配置具有不同的特征和用途：

1. chunked配置

特征:
- document_id: 字符串
- document_text: 字符串
- document_filename: 字符串
- document_metadata: 结构体(file_size: int64)
- raw_chunk_summaries: 字符串序列
- chunk_summaries: 字符串序列
- raw_document_summary: 字符串
- document_summary: 字符串
- summarization_model: 字符串
- chunks: 列表(chunk_id: 字符串, chunk_text: 字符串)
- multihop_chunks: 列表(chunk_ids: 字符串序列, chunks_text: 字符串序列)
- chunk_info_metrics: 列表(avg_token_length: float64, bigram_diversity: float64, flesch_reading_ease: float64, gunning_fog: float64, perplexity: float64, token_count: float64, unique_token_ratio: float64)
- chunking_model: 字符串
数据统计:
- train分片: 5个样本，1,493,306字节
- 下载大小: 619,699字节
- 数据集大小: 1,493,306字节

2. ingested配置

特征:
- document_id: 字符串
- document_text: 字符串
- document_filename: 字符串
- document_metadata: 结构体(file_size: int64)
数据统计:
- train分片: 3个样本，447,627字节
- 下载大小: 194,268字节
- 数据集大小: 447,627字节

3. lighteval配置

特征:
- question: 字符串
- additional_instructions: 字符串
- ground_truth_answer: 字符串
- gold: int64序列
- choices: 字符串序列
- question_category: 字符串
- kind: 字符串
- estimated_difficulty: int64
- citations: 字符串序列
- document_id: 字符串
- chunk_ids: 字符串序列
- question_generating_model: 字符串
- chunks: 字符串序列
- document: 字符串
- document_summary: 字符串
- answer_citation_score: float64
- chunk_citation_score: float64
- citation_score: float64
数据统计:
- train分片: 186个样本，7,350,312字节
- 下载大小: 85,591字节
- 数据集大小: 7,350,312字节

4. multi_hop_questions配置

特征:
- document_id: 字符串
- source_chunk_ids: 字符串序列
- additional_instructions: 字符串
- question: 字符串
- self_answer: 字符串
- choices: 字符串序列
- estimated_difficulty: int64
- self_assessed_question_type: 字符串
- generating_model: 字符串
- thought_process: 字符串
- citations: 字符串序列
- raw_response: 字符串
数据统计:
- train分片: 115个样本，613,692字节
- 下载大小: 127,762字节
- 数据集大小: 613,692字节

5. single_shot_questions配置

特征:
- chunk_id: 字符串
- document_id: 字符串
- additional_instructions: 字符串
- question: 字符串
- self_answer: 字符串
- choices: 字符串序列
- estimated_difficulty: int64
- self_assessed_question_type: 字符串
- generating_model: 字符串
- thought_process: 字符串
- raw_response: 字符串
- citations: 字符串序列
数据统计:
- train分片: 1,330个样本，5,393,562字节
- 下载大小: 791,337字节
- 数据集大小: 5,393,562字节

6. summarized配置

特征:
- document_id: 字符串
- document_text: 字符串
- document_filename: 字符串
- document_metadata: 结构体(file_size: int64)
- raw_chunk_summaries: 字符串序列
- chunk_summaries: 字符串序列
- raw_document_summary: 字符串
- document_summary: 字符串
- summarization_model: 字符串
数据统计:
- train分片: 4个样本，528,513字节
- 下载大小: 239,876字节
- 数据集大小: 528,513字节

搜集汇总

数据集介绍

构建方式

在航空信息处理领域，NOTAM数据集的构建采用了多阶段处理流程。原始航空文档经过智能分块处理，将冗长的技术文档划分为语义连贯的文本片段，每个片段配备独立的标识符。随后运用先进的摘要生成模型对文档整体和局部进行多层次摘要提炼，同时通过专业问答生成技术构建了单跳与多跳问答对，形成层次化的知识评估体系。

特点

该数据集展现出显著的多模态特征，不仅包含原始航空文档的完整文本，还集成了分块处理后的结构化数据与多层级摘要信息。其特色在于提供了丰富的元数据指标，包括文本复杂度、可读性指数和语言多样性度量，并配备了专业的问题-答案对集合，涵盖从基础事实查询到复杂推理的多层次认知任务。

使用方法

研究人员可通过六个专用配置灵活调用数据集资源：chunked配置提供分块处理后的文档结构，summarized配置聚焦摘要生成任务，lighteval配置专为轻量级评估设计，而single_shot_questions和multi_hop_questions配置分别针对单步推理与多步推理的问答场景。每个配置均支持标准数据加载接口，便于直接应用于自然语言处理模型的训练与评估。

背景与挑战

背景概述

NOTAM数据集聚焦于航空导航领域的关键信息处理，其构建旨在应对航行通告（Notice to Airmen）文本的复杂语义解析与知识提取需求。该数据集由专业研究团队开发，核心目标在于通过结构化表示与多跳推理机制，提升航空安全信息的自动化理解能力。其多配置架构涵盖文本分块、摘要生成及问答任务，显著推动了自然语言处理技术在航空文档分析中的应用，为高风险行业的决策支持系统提供了可靠的数据基础。

当前挑战

NOTAM数据集需解决航空术语标准化与上下文歧义消除的领域挑战，其专业缩写与动态更新特性增加了语义建模难度。构建过程中，非结构化文本的分块对齐与多跳逻辑标注易受噪声干扰，而摘要生成需平衡技术准确性与可读性。此外，问答任务中证据链的完整性验证与评估指标设计，进一步考验了数据质量的鲁棒性与领域适应性。

常用场景

经典使用场景

在航空领域的信息处理中，NOTAM数据集通过其分块、摘要和多跳问题等结构化配置，为自然语言处理模型提供了评估复杂文档理解能力的标准平台。该数据集常用于测试模型对航空通告的语义解析、信息抽取和推理性能，尤其在处理长文本和多源信息融合方面展现出独特价值。研究人员利用其丰富的标注层次，系统验证模型在真实航空文档场景下的鲁棒性和准确性。

衍生相关工作

基于NOTAM数据集衍生的经典研究主要集中在三个方面：面向航空领域的预训练语言模型优化、多跳推理机制的创新架构设计以及领域自适应摘要生成方法。这些工作不仅深化了专业文本的理解技术，还催生了如航空知识图谱构建、智能航务助手等实用系统，形成了从基础研究到产业应用的完整技术链条。

数据集最近研究