TFH_Annotated_Dataset

github2020-11-13 更新2024-05-31 收录

下载链接：

https://github.com/squirrel1982/TFH_Annotated_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TFH_Annotated_Dataset是一个关于硬盘thin film head技术的注释专利数据集。据我们所知，这是技术管理领域中第一个公开可用的标记专利数据集，它不仅标注了实体，还标注了实体间的语义关系。

The TFH_Annotated_Dataset is an annotated patent dataset focusing on the thin film head technology in hard drives. To our knowledge, it is the first publicly available annotated patent dataset in the field of technology management, which not only labels entities but also annotates the semantic relationships between them.

创建时间：

2020-03-08

原始信息汇总

数据集概述

数据集名称

TFH_Annotated_Dataset

数据集内容

该数据集包含与硬盘中的薄膜磁头技术相关的专利数据，是技术管理领域首个公开的标注了实体及其语义关系的标注专利数据集。

数据集结构

实体类型：数据集定义了17种实体类型，包括物理流、信息流、能量流、测量、值、位置、状态、效果、功能、形状、组件、属性、后果、系统、材料、科学概念和其他。
语义关系类型：数据集定义了15种语义关系类型，包括空间关系、部分-整体关系、因果关系、操作关系、由...制成、实例-类别关系、属性、生成、目的、方式、别名、形成、比较、测量和其他。

数据集规模

专利摘要数量：1010篇
句子数量：3,996句
实体提及数量：22,833次
语义关系提及数量：17,468次

数据标注工具

使用名为Brat的网络标注工具进行数据标注，数据以.ann格式保存。

信息提取结果

实体识别：使用BiLSTM-CRF模型，测试集上的加权平均精确度、召回率和F1值分别为78.5%、78.0%和78.2%。
语义关系提取：使用BiGRU-2ATTENTION模型，测试集上的加权平均精确度、召回率和F1值分别为78.5%、78.0%和78.2%（含无边关系），32.3%、41.5%和36.3%（不含无边关系）。

数据集应用

该数据集支持深度学习模型在专利领域的信息提取任务，特别是命名实体识别和语义关系提取。

搜集汇总

数据集介绍

构建方式

TFH_Annotated_Dataset的构建基于硬盘薄膜头技术领域的专利文献，通过精心设计的信息模式对专利进行标注，涵盖了17种实体类型和15种语义关系类型。该数据集包含1010篇专利摘要，共计3996个句子，使用基于网络的标注工具Brat进行数据标注，标注数据以'.ann'格式保存，便于在Brat环境中展示和操作。

特点

TFH_Annotated_Dataset的特点在于其丰富的标注信息，共包含22,833个实体提及和17,468个语义关系提及。该数据集不仅标注了实体，还标注了实体间的语义关系，为技术管理领域的研究提供了首个公开的标注专利数据集。此外，数据集还提供了实体和语义关系类型的统计分布图，便于用户直观了解数据分布情况。

使用方法

TFH_Annotated_Dataset可用于信息抽取任务，如命名实体识别和语义关系抽取。用户可以通过加载数据集并利用深度学习模型（如BiLSTM-CRF和BiGRU-2ATTENTION）进行训练和测试。数据集还提供了预训练的词嵌入，这些词嵌入基于46,302篇硬盘磁头相关专利的摘要训练，能够显著提升模型性能。用户可以通过解压数据集并在Brat环境中加载'.ann'文件，进行数据可视化和进一步分析。

背景与挑战

背景概述

TFH_Annotated_Dataset是一个专注于硬盘中薄膜磁头技术的标注专利数据集，由相关领域的研究团队于近期发布。该数据集首次在技术管理领域公开了同时标注实体及其语义关系的专利数据，涵盖了17种实体类型和15种语义关系类型。通过使用基于Web的标注工具Brat，研究人员对1010篇专利摘要进行了精细标注，生成了22,833个实体提及和17,468个语义关系提及。这一数据集的发布为专利文本的信息抽取任务提供了重要支持，特别是在命名实体识别和语义关系抽取方面，推动了相关领域的研究进展。

当前挑战

TFH_Annotated_Dataset在构建和应用过程中面临多重挑战。首先，专利文本的语言复杂性和领域专业性使得标注工作极为困难，需要标注者具备深厚的领域知识。其次，尽管数据集规模较大，但与通用领域的数据集相比，标注数据的数量仍然有限，这限制了深度学习模型的性能提升。例如，命名实体识别任务中的F1值较通用数据集低10%以上。此外，语义关系抽取任务中，去除无关系样本后的F1值仅为36.3%，表明模型在处理复杂语义关系时仍存在显著不足。这些挑战凸显了进一步扩展数据集规模和改进模型算法的必要性。

常用场景

经典使用场景

TFH_Annotated_Dataset在技术管理领域中的经典使用场景主要集中在对专利文本的深度分析上。该数据集通过对薄膜磁头技术相关的专利进行实体标注和语义关系标注，为研究人员提供了一个丰富的资源库，用于探索技术发展趋势、创新模式以及技术间的关联性。特别是在专利信息提取、技术路线图构建和技术预测等领域，该数据集的应用尤为显著。

衍生相关工作

TFH_Annotated_Dataset的发布催生了一系列相关研究工作。例如，基于该数据集的命名实体识别和语义关系提取模型被广泛应用于其他技术领域的专利分析中。此外，该数据集还激发了更多关于专利文本表示学习的研究，如专利词嵌入的优化和跨领域专利分析模型的开发。这些衍生工作不仅扩展了TFH_Annotated_Dataset的应用范围，还进一步推动了技术管理领域的研究进展。

数据集最近研究