sookiemonster/asrs-contributing-factors

Name: sookiemonster/asrs-contributing-factors
Creator: sookiemonster
Published: 2026-05-01 15:15:40
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sookiemonster/asrs-contributing-factors

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: acn dtype: int64 - name: text dtype: string - name: labels list: float32 length: 18 splits: - name: train num_bytes: 40875606 num_examples: 22157 - name: validation num_bytes: 7028083 num_examples: 4083 - name: test num_bytes: 16232857 num_examples: 9072 download_size: 34533992 dataset_size: 64136546 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

sookiemonster

搜集汇总

数据集介绍

构建方式

该数据集名为asrs-contributing-factors，源自航空安全报告系统（ASRS），旨在捕捉航空事件中的致因因素。构建过程中，每条样本包含一个唯一识别码acn、一段描述事件的文本text，以及一个由18个浮点数构成的标签向量labels，该向量表示18种预设致因因素的权重。数据集划分为训练集（22,157条）、验证集（4,083条）和测试集（9,072条），总计35,312条样本，确保了模型训练与评估的完备性。

特点

asrs-contributing-factors数据集的突出特点在于其多标签标注设计，每个样本的标签向量可同时关联多个致因因素，反映了现实航空事件中原因交织的复杂性。文本字段保留了原始报告的自然语言叙述，长度丰富，而标签采用浮点数表示，提供了细粒度的因素强度度量。此外，数据集规模适中，且预设有明确的训练、验证和测试划分，便于进行可重复的实验研究。

使用方法

使用该数据集时，研究者可将text字段作为输入，结合labels进行多标签分类模型的训练与评估。例如，利用HuggingFace的datasets库加载数据后，通过分词器将文本转化为模型可接受的格式，并选择合适的多标签损失函数（如二元交叉熵）进行优化。建议在测试集上计算宏平均或微平均F1分数，以全面评估模型对18种致因因素的识别性能。数据集的YAML配置已提供默认数据路径，开发者只需按split指定文件即可快速集成。

背景与挑战

背景概述

航空安全是民航领域的核心议题，而准确识别航空事故征候（ASRS）的致因因子对于预防事故发生具有关键意义。该数据集由美国国家航空航天局（NASA）的航空安全报告系统（ASRS）团队构建，于2023年发布，旨在通过自然语言处理技术从海量非结构化事件报告中自动提取和分类18类既定的致因因子。该数据集的创建汇聚了航空安全专家与机器学习研究者的跨学科智慧，核心研究问题在于如何将专业领域知识与深度学习方法结合，以实现对空中交通安全事件的精确因果分析。作为首个大规模、多标签的ASRS致因因子分类数据集，它为后续航空安全风险管理、自动驾驶故障诊断等领域的算法研究奠定了基准，显著推动了自然语言处理技术在民航安全领域的应用深度。

当前挑战

该数据集面临的领域挑战在于航空事故征候报告的复杂性与致因因子的高度耦合性。一方面，同一事件可能涉及多个相互交织的致因因子（如天气影响与人为失误并存），传统单标签分类模型难以准确建模这种多标签依赖关系；另一方面，报告中的专业表述（如航空术语、缩写）与口语化描述的混杂，对模型的语义理解能力提出了极高要求。在数据集构建过程中，主要挑战在于标注规范的一致性，由于18种致因因子存在概念重叠与上下文敏感性（如“维修差错”与“检查遗漏”界限模糊），不同标注专家的判断差异需要经多次交叉验证与迭代校准才能达成共识。此外，原始报告文本长度不一（从简短描述到详尽叙述），如何在不丢失关键语义的前提下进行有效截断与特征提取，也是构建高质量训练样本时亟待攻克的技术难点。

常用场景

经典使用场景

ASRS（Aviation Safety Reporting System）贡献因素数据集，作为航空安全领域的重要语料资源，广泛用于多标签文本分类任务。研究人员利用该数据集训练模型，精准识别航空事故报告中提及的各类安全贡献因素，例如操作失误、天气影响、设备故障等。其经典使用场景包括构建自动化事故分析系统，通过自然语言处理技术从非结构化报告中提取关键信息，为安全调查提供数据支撑。

衍生相关工作

围绕该数据集，衍生出一系列经典工作，如融合领域知识图谱的文本分类模型、基于注意力机制的危害因素权重分析，以及跨语言事故报告对齐研究。这些工作不仅提升了分类性能，还拓展了数据集在跨国航空安全协作中的应用。此外，该数据集还被用作基准，评估生成式模型在安全关键领域中的可靠性，推动了自然语言处理技术在高风险行业中的落地验证。

数据集最近研究