five

elihoole/asrs-aviation-reports

收藏
Hugging Face2022-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elihoole/asrs-aviation-reports
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集收集了47,723份航空事故报告,这些报告来自NASA维护的航空安全报告系统(ASRS)数据库。数据集主要用于摘要生成任务,模型性能通过ROUGE分数来衡量。每个实例包含事故的叙述、摘要和文档ID,部分实例还包含专家提供的扩展分析。数据集的语言为英语,具体为美国英语(en-US)和英国英语(en-GB)。

This dataset comprises 47,723 aviation accident reports sourced from the Aviation Safety Reporting System (ASRS) database maintained by NASA. Primarily designed for text summarization tasks, the performance of models on this dataset is assessed using ROUGE scores. Each instance includes the accident narrative, summary, and document ID; a subset of instances additionally contains expert-provided extended analyses. The dataset is written in English, specifically American English (en-US) and British English (en-GB).
提供机构:
elihoole
原始信息汇总

数据集概述

  • 数据集名称: ASRS Aviation Incident Reports
  • 数据集大小: 47,723条记录
  • 语言: 英语(en)
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 任务类别: 摘要生成

数据集结构

  • 数据实例:
    • Report 1_Narrative: 叙述性报告文本
    • Report 1.2_Synopsis: 专家编写的摘要文本
    • acn_num_ACN: 文档ID
    • Report 1.1_CallbackReport 2.1_Callback: 专家扩展分析(部分实例包含)
    • Report 2_Narrative: 第二叙述性报告(部分实例包含)
    • 其他字段: 元数据,如时间、地点、飞行条件、飞机型号等

数据集创建

  • 注释创建者: 专家生成
  • 数据来源: 原始数据

数据字段详细信息

特征 实例数量 平均令牌数
Report 1_Narrative 47,723 281
Report 1.1_Callback 1,435 103
Report 2_Narrative 11,228 169
Report 2.1_Callback 85 110
Report 1.2_Synopsis 47,723 27

支持的任务

  • 摘要生成: 用于训练模型进行抽象和提取摘要,模型性能通过ROUGE评分衡量。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于NASA维护的航空安全报告系统(ASRS)数据库中公布的47,723份航空事故报告。数据集的构建旨在为航空领域的事故报告摘要任务提供训练资源,涵盖了事故报告的详细叙述、专家撰写的摘要、文档标识以及相关的事故元数据。
特点
ASRS Aviation Incident Reports数据集具有明显的专业性,其内容均为专家生成的航空事故报告。数据集为单语言英语,具备一定规模的样本量(10K<n<100K)。报告内容不仅包括事故的详细描述,还附有专家的回调分析和摘要,为模型训练和评估提供了丰富的信息。此外,数据集遵循Apache-2.0许可,保证了使用的灵活性和开放性。
使用方法
用户可以通过HuggingFace的dataset库加载该数据集,数据集提供了训练集和测试集的划分,方便用户进行模型训练和性能评估。数据集的字段包括事故叙述、摘要、文档ID以及与事故相关的元数据。用户可以根据具体任务需求,如摘要生成,对数据集中的文本进行相应的预处理和模型训练。
背景与挑战
背景概述
ASRS Aviation Incident Reports数据集收集了47,723份航空事故报告,这些报告源自美国国家航空航天局(NASA)维护的航空安全报告系统(ASRS)数据库。该数据集的创建旨在为航空安全领域的研究人员提供一份详尽的航空事故案例资源,以促进对航空安全事件的理解与分析。该数据集的构建始于对航空安全报告的深度挖掘需求,由Elijah Hoole负责协调,并在学术界与工业界产生了广泛的影响。自发布以来,该数据集在航空安全事件的自动摘要、风险评估以及决策支持系统中起到了关键作用,为相关领域的研究提供了宝贵的数据资源。
当前挑战
数据集在构建与应用过程中面临的挑战主要包括:一是确保事故报告的准确性与完整性,这对于训练相关模型以进行有效的自动摘要至关重要;二是处理数据中的多样性与复杂性,由于事故报告涉及多种飞行条件、机型及操作环境,这对模型的泛化能力提出了较高要求;三是遵守隐私与数据安全规定,确保报告中不含有敏感信息,以维护当事人的隐私权益。此外,数据集在多语言处理、数据标注一致性以及模型评估标准等方面也存在着一定的挑战。
常用场景
经典使用场景
在自然语言处理领域,尤其是文本摘要任务中,ASRS航空事故报告数据集提供了丰富的实例,其经典使用场景在于构建和训练能够生成事故摘要的模型。通过该数据集,研究人员可以设计出自动提取关键信息并生成事故概要的系统,这对于提高航空安全信息的处理效率至关重要。
解决学术问题
该数据集解决了学术研究中如何有效处理和总结大量航空事故报告的问题。通过训练模型以生成精确的事故摘要,研究人员能够更好地理解事故模式,为航空安全提供数据支持,进而提升飞行安全标准和事故响应速度。
衍生相关工作
基于ASRS航空事故报告数据集,衍生出了多项相关工作,包括但不限于事故预测模型的构建、航空安全规范的制定,以及飞行操作风险评估工具的开发。这些工作不仅推动了航空安全领域的研究,也为相关政策和规范的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作