five

DFKI-SLT/fabner|自然语言处理数据集|制造业数据集

收藏
hugging_face2024-05-15 更新2024-03-04 收录
自然语言处理
制造业
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/fabner
下载链接
链接失效反馈
资源简介:
FabNER是一个专为制造业文本设计的命名实体识别数据集,包含超过350,000字的文本,这些文本是从Web of Science中获取的制造业过程科学研究期刊的摘要。数据集中的每个单词都被标注了多种实体类别,如材料、制造过程、机器/设备等,并采用BIOES格式进行标注。此外,数据集还提供了不同配置,如fabner、fabner_bio和fabner_simple,以适应不同的需求和任务。
提供机构:
DFKI-SLT
原始信息汇总

数据集卡片概述

数据集描述

数据集概要

FabNER 是一个用于命名实体识别(Named Entity Recognition, NER)的制造业文本数据集,包含超过350,000个单词。该数据集是从Web of Science中的已知期刊中收集的摘要,涵盖了制造业过程科学研究的领域。每个单词都有定义的类别/实体标签,包括材料(MATE)、制造过程(MANP)、机器/设备(MACEQ)、应用(APPL)、特征(FEAT)、机械性能(PRO)、表征(CHAR)、参数(PARA)、使能技术(ENAT)、概念/原理(CONPRI)、制造标准(MANS)和生物医学(BIOP)。注释以BIOES格式进行:B=开始,I=中间,O=外部,E=结束,S=单个。

支持的任务和排行榜

该数据集支持的任务是命名实体识别(Named Entity Recognition, NER)。

语言

数据集中的语言是英语。

数据集结构

数据实例

一个训练实例的示例如下: json { "id": "0", "tokens": ["Revealed", "the", "location-specific", "flow", "patterns", "and", "quantified", "the", "speeds", "of", "various", "types", "of", "flow", "."], "ner_tags": [0, 0, 0, 46, 49, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }

数据字段

fabner

  • id: 句子实例的ID,字符串类型。
  • tokens: 句子中的单词列表,字符串列表类型。
  • ner_tags: 实体标签列表,分类标签列表类型。

标签映射如下: json {"O": 0, "B-MATE": 1, "I-MATE": 2, "O-MATE": 3, "E-MATE": 4, "S-MATE": 5, "B-MANP": 6, "I-MANP": 7, "O-MANP": 8, "E-MANP": 9, "S-MANP": 10, "B-MACEQ": 11, "I-MACEQ": 12, "O-MACEQ": 13, "E-MACEQ": 14, "S-MACEQ": 15, "B-APPL": 16, "I-APPL": 17, "O-APPL": 18, "E-APPL": 19, "S-APPL": 20, "B-FEAT": 21, "I-FEAT": 22, "O-FEAT": 23, "E-FEAT": 24, "S-FEAT": 25, "B-PRO": 26, "I-PRO": 27, "O-PRO": 28, "E-PRO": 29, "S-PRO": 30, "B-CHAR": 31, "I-CHAR": 32, "O-CHAR": 33, "E-CHAR": 34, "S-CHAR": 35, "B-PARA": 36, "I-PARA": 37, "O-PARA": 38, "E-PARA": 39, "S-PARA": 40, "B-ENAT": 41, "I-ENAT": 42, "O-ENAT": 43, "E-ENAT": 44, "S-ENAT": 45, "B-CONPRI": 46, "I-CONPRI": 47, "O-CONPRI": 48, "E-CONPRI": 49, "S-CONPRI": 50, "B-MANS": 51, "I-MANS": 52, "O-MANS": 53, "E-MANS": 54, "S-MANS": 55, "B-BIOP": 56, "I-BIOP": 57, "O-BIOP": 58, "E-BIOP": 59, "S-BIOP": 60}

fabner_bio

  • id: 句子实例的ID,字符串类型。
  • tokens: 句子中的单词列表,字符串列表类型。
  • ner_tags: 实体标签列表,分类标签列表类型。

标签映射如下: json {"O": 0, "B-MATE": 1, "I-MATE": 2, "B-MANP": 3, "I-MANP": 4, "B-MACEQ": 5, "I-MACEQ": 6, "B-APPL": 7, "I-APPL": 8, "B-FEAT": 9, "I-FEAT": 10, "B-PRO": 11, "I-PRO": 12, "B-CHAR": 13, "I-CHAR": 14, "B-PARA": 15, "I-PARA": 16, "B-ENAT": 17, "I-ENAT": 18, "B-CONPRI": 19, "I-CONPRI": 20, "B-MANS": 21, "I-MANS": 22, "B-BIOP": 23, "I-BIOP": 24}

fabner_simple

  • id: 句子实例的ID,字符串类型。
  • tokens: 句子中的单词列表,字符串列表类型。
  • ner_tags: 实体标签列表,分类标签列表类型。

标签映射如下: json {"O": 0, "MATE": 1, "MANP": 2, "MACEQ": 3, "APPL": 4, "FEAT": 5, "PRO": 6, "CHAR": 7, "PARA": 8, "ENAT": 9, "CONPRI": 10, "MANS": 11, "BIOP": 12}

text2tech

  • id: 句子实例的ID,字符串类型。
  • tokens: 句子中的单词列表,字符串列表类型。
  • ner_tags: 实体标签列表,分类标签列表类型。

标签映射如下: json {"O": 0, "Technological System": 1, "Method": 2, "Material": 3, "Technical Field": 4}

数据分割

训练集 验证集 测试集
fabner 9435 2183 2064

数据集创建

数据集来源

数据集是从Web of Science中的已知期刊中收集的摘要,涵盖了制造业过程科学研究的领域。

注释过程

注释由专家生成,以BIOES格式进行:B=开始,I=中间,O=外部,E=结束,S=单个。

数据集使用注意事项

数据集的社交影响

该数据集主要用于提高制造业领域的信息提取和命名实体识别的准确性。

数据集的偏见讨论

数据集可能包含特定领域的偏见,需要在使用时进行评估和调整。

其他已知限制

数据集可能受限于特定领域的术语和表达方式,可能不适用于所有通用场景。

附加信息

数据集许可证

数据集的许可证类型为“其他”。

数据集引用信息

@article{DBLP:journals/jim/KumarS22, author = {Aman Kumar and Binil Starly}, title = {"FabNER": information extraction from manufacturing process science domain literature using named entity recognition}, journal = {J. Intell. Manuf.}, volume = {33}, number = {8}, pages = {2393--2407}, year = {2022}, url = {https://doi.org/10.1007/s10845-021-01807-x}, doi = {10.1007/s10845-021-01807-x}, timestamp = {Sun, 13 Nov 2022 17:52:57 +0100}, biburl = {https://dblp.org/rec/journals/jim/KumarS22.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集贡献者

感谢 @phucdev 添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
FabNER数据集的构建基于领域专家的标注,它收集了制造过程科学领域文献的摘要,并通过定义详细的实体类别和标签,实现了对文本中命名实体的识别。该数据集分为训练集、验证集和测试集,每个集合都包含了文本片段和相应的实体标签,这些标签遵循'BIOES'格式,以标识实体边界的开始、中间、结束和单一出现。
使用方法
使用该数据集时,研究者可以根据自己的需求选择不同的配置版本。数据集可以通过HuggingFace的datasets库进行加载,利用其提供的 splits 功能来访问训练集、验证集和测试集。每个数据实例都包括一个唯一标识符、一组词汇和对应的实体标签,研究者可以使用这些数据进行模型训练、评估和测试。
背景与挑战
背景概述
FabNER数据集,创建于21世纪初,是由专家生成的针对制造业文本的命名实体识别数据集。该数据集由DFKI和SLT共同构建,旨在从制造业过程科学领域的文献中提取信息。它包含了从Web of Science获取的350,000余词的摘要集合,涵盖了材料、制造过程、设备、应用、特性、机械性能、表征、参数、使能技术、概念/原理、制造标准和生物医学等多个实体类别。数据集的构建为制造业文本的信息提取和实体识别研究提供了重要资源,对相关领域产生了显著影响。
当前挑战
在构建FabNER数据集的过程中,研究人员面临了多个挑战。首先,制造业文本的专业性和复杂性使得实体识别任务充满困难。其次,确保数据标注的质量和一致性需要专业的知识和细致的工作。此外,数据集的多样性和规模也提出了对标注和处理的特殊要求。在领域问题解决方面,FabNER数据集的挑战在于如何准确地识别和分类制造业文献中的各类实体,以支持有效的信息提取。
常用场景
经典使用场景
FabNER数据集的经典使用场景在于制造业文本的命名实体识别任务。该数据集包含丰富的制造过程科学领域文献摘要,标注了材料、制造过程、设备、应用等多个实体的类别,为研究人员提供了一种从文本中自动提取关键信息的有效手段。
解决学术问题
该数据集解决了制造业文献中关键信息提取的学术研究问题,如自动化识别材料、设备、制造标准等实体,从而提高了信息检索的效率和质量,对制造业的知识管理和技术创新具有重要意义。
实际应用
在实际应用中,FabNER数据集可用于构建智能信息检索系统,辅助工程师快速定位和获取制造过程中的关键技术和参数,进而优化生产流程,提高制造业的智能化水平。
数据集最近研究
最新研究方向
FabNER数据集作为制造过程科学领域文献的命名实体识别资源,近期研究方向主要聚焦于提升命名实体识别的准确性和扩展实体的覆盖范围。研究工作致力于开发更为精细的模型,以识别材料、制造过程、设备和应用等关键实体,进而促进制造流程的信息提取和自动化。此外,也有研究探索该数据集在生物医学等跨领域应用中的适用性,以及如何通过数据增强和模型迁移学习来提升其在不同场景下的性能。这些研究对于推动智能制造和过程优化具有显著影响,为制造业的数字化转型提供了重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录