mayerantoine/injury-narrative-coding

Name: mayerantoine/injury-narrative-coding
Creator: mayerantoine
Published: 2023-04-18 15:17:09
License: 暂无描述

Hugging Face2023-04-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mayerantoine/injury-narrative-coding

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于2018年由NASA-Tournament-Lab与美国国家职业安全与健康研究所（NIOSH）合作组织的竞赛中。竞赛的目标是将监测系统中记录的非结构化自由文本‘伤害叙述’分类为职业伤害和疾病分类系统（OIICS）中的伤害代码。这是一个多类文本分类任务，训练数据集包括分布在7个类别中的48个可分类事件代码。数据字段包括伤害叙述描述、性别、年龄和OIICS代码。

提供机构：

mayerantoine

原始信息汇总

数据集概述

数据集描述

任务类别：文本分类
语言：英语
标签：医疗
数据集大小：100,000 < n < 1,000,000

数据集总结

该数据集用于2018年NASA-Tournament-Lab与国家职业安全卫生研究所（NIOSH）合作组织的竞赛。竞赛目标是将监控系统中记录的非结构化自由文本“伤害叙述”分类为职业伤害和疾病分类系统（OIICS）中的伤害代码。

支持的任务和分类

这是一个多类文本分类任务，训练数据集包含48个可分类事件代码，分布在7个类别中：

暴力和其他人为及动物造成的伤害
交通事故
火灾和爆炸
跌倒、滑倒和绊倒
接触有害物质或环境
与物体和设备的接触
过度劳累和身体反应

数据集结构

数据字段

text：伤害叙述描述
sex：性别
age：年龄
event：OIICS代码，即分类标签

数据分割

名称	训练	测试	完整数据集
plain_text	153,956	75,864	229,820

搜集汇总

数据集介绍

构建方式

在职业安全与健康领域，文本数据的系统化标注对于伤害预防研究至关重要。该数据集源自美国国家职业安全与健康研究所（NIOSH）与NASA竞赛实验室的合作项目，通过收集职业伤害监测系统中记录的非结构化自由文本“伤害叙述”，并依据职业伤害与疾病分类系统（OIICS）进行标准化编码。数据构建过程涉及从原始监测记录中提取文本描述，并关联伤害事件代码，最终形成包含约23万条实例的标注语料，涵盖训练集与测试集的明确划分。

使用方法

该数据集主要用于开发与评估职业伤害自动分类模型。研究者可基于训练集文本与对应事件代码构建分类器，以预测新伤害叙述的OIICS编码。使用时应遵循文本分类的标准流程，包括数据预处理、特征提取及模型训练，并利用测试集进行性能验证。鉴于数据涉及个人敏感信息如年龄与性别，在实际应用中需遵循伦理规范，确保数据使用的合规性与隐私保护。

背景与挑战

背景概述

职业伤害监测领域长期依赖结构化数据，难以捕捉事故的复杂情境。2018年，美国国家航空航天局锦标赛实验室与职业安全与健康研究所合作，创建了injury-narrative-coding数据集，旨在通过自然语言处理技术，将非结构化的职业伤害叙述文本自动编码至职业伤害与疾病分类系统。该数据集包含约23万条记录，涵盖暴力事件、运输事故、火灾爆炸等七大类伤害类型，为职业安全研究提供了重要的文本分析基础，推动了医疗信息学与职业健康领域的交叉创新。

当前挑战

该数据集的核心挑战在于职业伤害叙述的文本复杂性，包括口语化表达、专业术语变异及上下文依赖，这要求模型具备深层次的语义理解能力。构建过程中，数据标注面临专业编码标准的严格应用，需确保跨类别伤害事件的一致性与准确性，同时处理敏感个人信息如年龄与性别的伦理考量，这些因素共同增加了数据集的质量控制难度。

常用场景

经典使用场景

在职业安全与健康领域，对工伤事故的文本描述进行自动分类是提升监管效率的关键环节。该数据集通过提供大量非结构化的工伤叙事文本及其对应的职业伤害与疾病分类系统代码，为研究人员构建多类别文本分类模型奠定了数据基础。经典使用场景涉及利用自然语言处理技术，训练模型从自由文本中识别出如暴力伤害、交通事故、火灾爆炸等七大类伤害事件，从而实现工伤报告的快速编码与统计分析。

解决学术问题

该数据集有效解决了职业健康研究中人工编码效率低下、主观性强以及大规模文本处理困难等学术问题。通过提供标准化的标注数据，它支持了机器学习模型在医疗文本分类任务上的性能评估与算法创新，促进了自动化编码系统的开发。其意义在于推动了计算语言学与职业流行病学的交叉研究，为理解工伤模式、预防策略制定提供了可靠的数据驱动见解，对提升公共卫生监测的准确性与时效性产生了深远影响。

实际应用

在实际应用中，该数据集支撑的系统可集成至职业安全监管机构或企业的健康管理平台，用于自动处理工伤报告。通过实时分析员工提交的事故描述文本，系统能够快速归类伤害类型，辅助管理者识别高风险环节，及时采取干预措施。这不仅减轻了人工审核的负担，还增强了事故报告的标准化与一致性，为制定针对性的安全培训计划和降低职场伤害率提供了数据支持。

数据集最近研究