nlp-tlp/MaintNorm

Name: nlp-tlp/MaintNorm
Creator: nlp-tlp
Published: 2024-03-27 23:42:18
License: 暂无描述

Hugging Face2024-03-27 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/nlp-tlp/MaintNorm

下载链接

链接失效反馈

官方服务：

资源简介：

MaintNorm数据集包含12,000条英文文本，主要来自澳大利亚三家主要矿业公司的维护工单。该数据集标注了词汇标准化和实体标记任务，是工业环境中自然语言处理研究和应用的宝贵资源。数据集结构包括三个公司特定来源的数据和一个整合数据集，支持细粒度和综合分析。掩码方案用于处理隐私和数据特异性，包括资产标识符、敏感信息、数字实体和日期等。数据集实例展示了标准化的格式，每个文本类似于CoNLL03格式，每个标记与其标准化或掩码对应部分由制表符分隔。

提供机构：

nlp-tlp

原始信息汇总

MaintNorm 数据集概述

数据集基本信息

许可证: MIT
文本类别: 词汇归一化
语言: 英语
数据集名称: MaintNorm
数据集大小: 10,000 < n < 100,000
多语言性: 单语种

数据集描述

内容: MaintNorm 数据集包含12,000个英语短文本，这些文本是从澳大利亚三大矿业组织的维护工作订单中提取的。数据集针对词汇归一化和令牌级实体标记任务进行了注释，适用于工业环境中的自然语言处理研究和应用。
数据结构: 数据集包含来自三个不同公司源的数据（company_a, company_b, company_c），以及一个整合了这些源数据的combined数据集，支持细粒度和全面的分析。

数据集实例

格式: 数据集采用标准归一化格式，类似于WNUT共享任务中使用的格式。每个文本类似于CoNLL03格式，令牌由换行符分隔，每个令牌与其归一化或屏蔽的对应部分由制表符分隔。
示例: txt Exhaust exhaust Fan fan #6 number <num> Tripping tripping c/b circuit breaker

HF338 <id> INVESTAGATE investigate 24V <num> V FAULT fault

引用信息

引用文献:

@inproceedings{bikaun-etal-2024-maintnorm, title = "{M}aint{N}orm: A corpus and benchmark model for lexical normalisation and masking of industrial maintenance short text", author = "Bikaun, Tyler and Hodkiewicz, Melinda and Liu, Wei", booktitle = "Proceedings of the Ninth Workshop on Noisy and User-generated Text (W-NUT 2024)", year = "2024", address = "San {.G}iljan, Malta", publisher = "Association for Computational Linguistics", pages = "68--78", }

搜集汇总

数据集介绍

构建方式

在工业维护文本处理领域，MaintNorm数据集的构建体现了严谨的学术规范。该数据集源自澳大利亚三家大型矿业公司的维护工单，从中提取了12,000条英文短文本。构建过程的核心在于双重标注：一方面进行词汇规范化，将非标准术语转化为标准形式；另一方面实施令牌级实体标注，依据特定掩码方案对资产标识、敏感信息、数字及日期等实体进行匿名化处理。数据以类似CoNLL03的格式组织，每条文本的令牌与对应标注由制表符分隔，确保了数据的结构化和可解析性。

使用方法

该数据集主要服务于自然语言处理在工业环境中的应用研究。研究者可将其用于开发和评估词汇规范化模型，训练模型识别并纠正维护文本中的非标准词汇。同时，其实体标注支持命名实体识别任务的模型训练，特别是针对工业资产标识等特定实体类型。使用前，用户需解析其标准格式，将文本行分割为令牌及其对应标签。数据集划分允许进行公司间差异分析或整体模型训练。相关代码和详细说明可在其GitHub仓库中获取，为复现研究和实际应用提供了便利。

背景与挑战

背景概述

在工业自然语言处理领域，维护工作订单文本的自动化处理对提升设备管理效率具有关键意义。MaintNorm数据集由澳大利亚三所大型矿业机构的维护工单文本构成，于2024年由Tyler Bikaun、Melinda Hodkiewicz和Wei Liu等研究人员创建并发布。该数据集聚焦于工业短文本的词汇规范化与实体标注任务，旨在解决工业文本中非标准术语、缩写及实体信息的标准化难题，为工业场景下的自然语言理解研究提供了高质量、领域特定的标注资源，推动了工业文本处理技术的实用化发展。

当前挑战

MaintNorm数据集所应对的核心挑战在于工业维护文本的词汇规范化问题，这类文本常包含大量行业特定缩写、非标准拼写及简写形式，对传统自然语言处理模型构成显著理解障碍。在构建过程中，研究人员需克服多重困难：其一，处理来自不同企业的文本数据时，需在保护商业机密与个人信息的前提下进行有效的实体掩码设计；其二，标注过程需协调领域专家与语言学知识，以确保标注的一致性与准确性；其三，整合多源数据时，需平衡不同企业文本风格的差异性，构建具有泛化能力的基准模型。

常用场景

经典使用场景

在工业维护领域的自然语言处理研究中，MaintNorm数据集为词汇规范化任务提供了经典的应用场景。该数据集源自澳大利亚三大矿业公司的维护工单，其短文本特性与工业环境中常见的非标准拼写、缩写及术语变体高度契合。研究者可借助该数据集训练模型，将诸如'INVESTAGATE'等非标准词汇自动规范化为'investigate'，从而提升工业文本的可读性与一致性，为后续信息提取奠定基础。

解决学术问题

该数据集有效解决了工业文本处理中的核心学术挑战，即如何对充满噪音和非标准表达的短文本进行精准的词汇规范化与实体标注。通过提供标注了规范化形式和实体标签（如资产标识、敏感信息、数字、日期）的语料，MaintNorm为研究领域自适应、低资源环境下的命名实体识别以及隐私保护性文本处理提供了基准。其意义在于弥合了通用自然语言处理模型与特定工业领域语言特性之间的鸿沟，推动了领域专用语言技术的发展。

实际应用

在实际工业运维中，MaintNorm数据集的应用价值显著。它能够赋能智能维护系统，自动解析和标准化来自工程师或现场人员的非结构化工单文本。经过规范化处理的文本，便于被计算机辅助维护管理系统准确理解，进而自动触发工单分派、备件库存查询或历史故障关联分析。这不仅提升了维护工作的效率与准确性，也为基于文本数据的预测性维护分析提供了高质量的输入源。

数据集最近研究