phucdev/fabner

Name: phucdev/fabner
Creator: phucdev
Published: 2024-05-16 10:01:51
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/phucdev/fabner

下载链接

链接失效反馈

官方服务：

资源简介：

FabNER是一个用于命名实体识别（NER）的制造业文本数据集，包含从Web of Science获取的制造业过程科学领域的文献摘要，共计超过350,000个单词。每个单词都被标注了特定的实体类别，如材料（MATE）、制造过程（MANP）、机器/设备（MACEQ）等，标注格式为BIOES（B=开始，I=中间，O=外部，E=结束，S=单个）。数据集包含多个配置，如fabner、fabner_bio、fabner_simple和text2tech，每个配置都有不同的实体标签集。数据集的结构包括训练集、验证集和测试集，分别包含9435、2183和2064个实例。

提供机构：

phucdev

原始信息汇总

数据集概述

基本信息

数据集名称: FabNER
数据集类型: 制造文本数据集，用于命名实体识别
语言: 英语
语言创建者: 发现
许可证: 其他
多语言性: 单语
数据集大小: 10K<n<100K
标签: 制造, 2000-2020
任务类别: 令牌分类
任务ID: 命名实体识别

数据集结构

配置名称: fabner, fabner_bio, fabner_simple, text2tech
特征:
- id: 字符串类型，实例ID
- tokens: 字符串序列，句子中的令牌列表
- ner_tags: 分类标签序列，实体标签列表
分割:
- train: 9435个示例，4394010字节
- validation: 2183个示例，934347字节
- test: 2064个示例，940136字节
下载大小: 1265830字节
数据集大小: 6268493字节

数据集内容

摘要: FabNER是一个包含超过350,000字的制造文本语料库，用于命名实体识别。该数据集包含从Web of Science获取的制造过程科学研究领域的期刊摘要。
实体标签: 包括材料(MATE)、制造过程(MANP)、机器/设备(MACEQ)、应用(APPL)、特征(FEAT)、机械性能(PRO)、表征(CHAR)、参数(PARA)、启用技术(ENAT)、概念/原理(CONPRI)、制造标准(MANS)和生物医学(BIOP)。
标注格式: 使用BIOES格式进行标注，其中B=开始，I=中间，O=外部，E=结束，S=单个。

引用信息

@article{DBLP:journals/jim/KumarS22, author = {Aman Kumar and Binil Starly}, title = {"FabNER": information extraction from manufacturing process science domain literature using named entity recognition}, journal = {J. Intell. Manuf.}, volume = {33}, number = {8}, pages = {2393--2407}, year = {2022}, url = {https://doi.org/10.1007/s10845-021-01807-x}, doi = {10.1007/s10845-021-01807-x}, timestamp = {Sun, 13 Nov 2022 17:52:57 +0100}, biburl = {https://dblp.org/rec/journals/jim/KumarS22.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

在制造过程科学领域，文本信息的结构化提取对于知识发现至关重要。FabNER数据集的构建源于对制造科学文献中关键实体识别的需求，其语料源自Web of Science数据库中制造过程科学领域的期刊摘要，涵盖了超过35万词汇。专家团队依据制造领域的专业知识，定义了材料、制造工艺、设备、应用等十二类实体，并采用BIOES标注体系对每个词汇进行精细标注，确保了标注的一致性与专业性。

特点

该数据集的核心特征在于其针对制造科学领域的深度专业化设计。它不仅提供了涵盖材料、工艺、设备等多达十二类制造实体的精细标注，还创新性地提供了四种不同的标注格式配置，包括完整的BIOES格式、简化的BIO格式、仅实体类型的简单格式以及面向技术文本的聚合格式。这种多配置设计为不同复杂度的命名实体识别模型提供了灵活的评估基准，显著增强了数据集的实用性与研究广度。

使用方法

研究人员可利用该数据集训练和评估制造领域的命名实体识别模型。通过HuggingFace平台加载‘fabner’、‘fabner_bio’、‘fabner_simple’或‘text2tech’任一配置，即可访问已划分的训练集、验证集和测试集。典型流程包括使用序列标注框架加载数据，依据所选配置的标签体系构建模型，并在测试集上评估模型对制造领域特定实体的识别性能，从而推动制造文本智能化处理技术的发展。

背景与挑战

背景概述

FabNER数据集诞生于2022年，由Aman Kumar与Binil Starly等研究人员构建，旨在解决制造过程科学领域文献中的信息提取难题。该数据集聚焦于命名实体识别任务，专门针对制造科学文本，涵盖了材料、制造工艺、机械设备等十二类关键实体。通过从Web of Science收录的知名期刊摘要中收集超过35万词汇，并采用专家标注的BIOES格式，FabNER为制造领域的自然语言处理研究提供了首个大规模、细粒度的标注语料，显著推动了制造知识自动化提取与智能分析的发展。

当前挑战

FabNER数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，制造科学文本包含大量专业术语与复杂实体关系，实体边界模糊且类别交织，如“材料”与“特性”常紧密关联，给精确识别带来困难。构建过程中，数据源自学术摘要，语言高度凝练且领域特异性强，标注需依赖领域专家，导致标注成本高昂且一致性难以保证；同时，数据覆盖的期刊范围与时间跨度可能引入领域偏差，影响模型的泛化能力。

常用场景

经典使用场景

在智能制造与工业信息学领域，FabNER数据集为命名实体识别任务提供了专业文本资源。该数据集的核心应用场景在于从制造工艺科学文献中自动抽取关键实体，例如材料、制造过程、设备等类别。通过训练深度学习模型，研究者能够构建自动化信息提取系统，高效解析海量学术摘要，从而支撑制造知识的结构化组织与智能检索。

解决学术问题

FabNER数据集针对制造领域文本挖掘中的实体标注稀缺问题，提供了大规模专家标注语料。它有效解决了跨学科文献中专业术语识别困难、实体边界模糊等挑战，为制造信息提取研究建立了基准测试平台。该数据集推动了领域自适应命名实体识别方法的发展，促进了制造科学与自然语言处理技术的深度融合，具有重要的学术参考价值。

衍生相关工作

围绕FabNER数据集，学术界衍生出多项经典研究工作。例如，研究者利用该数据集评估了BERT、RoBERTa等预训练模型在制造领域的迁移学习性能。相关成果发表在《Journal of Intelligent Manufacturing》等期刊，推动了制造文本挖掘领域的算法创新。这些工作进一步拓展了数据集的适用范围，为后续的制造知识图谱构建、智能问答系统开发奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集