TFH_Annotated_Dataset

github2023-11-07 更新2024-05-31 收录

下载链接：

https://github.com/awesome-patent-mining/TFH_Annotated_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TFH_Annotated_Dataset是一个关于硬盘薄膜头技术的标注专利数据集，包含了17种实体类型和15种语义关系类型。

The TFH_Annotated_Dataset is an annotated patent dataset focusing on Thin Film Head (TFH) technology in hard drives, encompassing 17 entity types and 15 semantic relationship types.

创建时间：

2020-04-24

原始信息汇总

数据集概述

数据集名称

TFH_Annotated_Dataset

数据集内容

主题：薄膜磁头技术在硬盘中的应用
类型：标注专利数据集
特点：包含17种实体类型和15种语义关系类型

实体类型

数量：17种
示例：物理流、信息流、能量流、测量、值、位置、状态、效果、功能、形状、组件、属性、后果、系统、材料、科学概念、其他

语义关系类型

数量：15种
示例：空间关系、部分-整体关系、因果关系、操作关系、由...制成、实例-类别关系、属性关系、生成关系、目的关系、方式关系、别名关系、形成关系、比较关系、测量关系、其他

数据集规模

专利摘要：1010篇
句子数量：3,986句
实体提及：22,833次
语义关系提及：17,412次

数据标注工具

工具名称：Brat
数据格式：.ann

信息提取结果

模型：BiLSTM-CRF用于命名实体识别，BiGRU-2ATTENTION用于语义关系提取
性能：
- 命名实体识别：精确度78.5%，召回率78.0%，F1值78.2%
- 语义关系提取：精确度89.7%，召回率87.9%，F1值88.6%（含无边关系）；精确度32.3%，召回率41.5%，F1值36.3%（不含无边关系）

数据集浏览

浏览系统：BRAT系统
访问链接：BRAT系统

模型训练结果

新专利摘要：575篇
结果浏览系统：另一BRAT系统

搜集汇总

数据集介绍

构建方式

TFH_Annotated_Dataset的构建基于硬盘薄膜头技术领域的专利文献，采用了精细的信息模式进行标注。该数据集包含17种实体类型和15种语义关系类型，涵盖了从物理流、信息流到科学概念等多种实体，以及空间关系、部分关系、因果关系等多种语义关系。数据标注工作通过名为Brat的基于网络的标注工具完成，标注数据以'.ann'格式保存，便于在Brat环境中展示和操作。

特点

TFH_Annotated_Dataset的特点在于其丰富的实体和语义关系标注，共包含1010篇专利摘要，涉及3986个句子，标注了22,833个实体提及和17,412个语义关系提及。该数据集不仅提供了详细的实体和关系类型分布统计，还通过深度学习模型展示了其在命名实体识别和语义关系抽取任务中的应用效果，为技术管理领域的研究提供了宝贵的数据资源。

使用方法

使用TFH_Annotated_Dataset时，用户可以通过Brat系统浏览和操作标注数据。数据集支持深度学习模型进行信息抽取任务，如命名实体识别和语义关系抽取。用户还可以访问提供的BRAT系统查看模型训练后的信息抽取结果。此外，数据集的使用还包括对专利语言语义表示的改进，通过训练特定领域的词嵌入，提高了模型在命名实体识别和语义关系抽取任务中的性能。

背景与挑战

背景概述

TFH_Annotated_Dataset是一个专注于硬盘中薄膜头技术的标注专利数据集，由Chen等人于2020年发布。该数据集是技术管理领域中第二个公开的标注专利数据集，不仅标注了实体，还标注了实体之间的语义关系。数据集包含1010篇专利摘要，共计3986个句子，标注了22833个实体提及和17412个语义关系提及。其信息模式精心设计，涵盖了17种实体类型和15种语义关系类型。该数据集的发布为专利文档中的语义信息提取提供了重要资源，推动了深度学习模型在专利分析中的应用。

当前挑战

TFH_Annotated_Dataset在构建和应用过程中面临多重挑战。首先，专利文本的复杂性和专业性使得实体识别和关系提取任务尤为困难，尤其是在有限的标注数据下，模型的性能显著低于通用数据集。其次，数据集的构建依赖于人工标注，标注过程中需要处理大量技术术语和复杂的语义关系，这对标注人员的专业知识和耐心提出了极高要求。此外，尽管使用了先进的深度学习模型如BiLSTM-CRF和BiGRU-2ATTENTION，模型在特定实体和关系类型上的表现仍存在显著差异，表明现有方法在处理专利文本时仍有改进空间。

常用场景

经典使用场景

TFH_Annotated_Dataset在技术管理领域中被广泛用于专利文档的语义信息提取研究。该数据集通过标注专利中的实体及其语义关系，为研究人员提供了一个丰富的资源，用于开发和测试自然语言处理模型，特别是在命名实体识别和语义关系提取任务中。

衍生相关工作

基于TFH_Annotated_Dataset，研究人员开发了多种深度学习模型，如BiLSTM-CRF和BiGRU-2ATTENTION，用于命名实体识别和语义关系提取。这些模型在专利文档处理中的应用，不仅推动了自然语言处理技术的发展，也为专利分析和知识管理提供了新的方法和工具。

数据集最近研究