five

TFH_Annotated_Dataset

收藏
github2023-11-07 更新2024-05-31 收录
下载链接:
https://github.com/awesome-patent-mining/TFH_Annotated_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TFH_Annotated_Dataset是一个关于硬盘薄膜头技术的标注专利数据集,包含了17种实体类型和15种语义关系类型。

The TFH_Annotated_Dataset is an annotated patent dataset focusing on Thin Film Head (TFH) technology in hard drives, encompassing 17 entity types and 15 semantic relationship types.
创建时间:
2020-04-24
原始信息汇总

数据集概述

数据集名称

TFH_Annotated_Dataset

数据集内容

  • 主题:薄膜磁头技术在硬盘中的应用
  • 类型:标注专利数据集
  • 特点:包含17种实体类型和15种语义关系类型

实体类型

  • 数量:17种
  • 示例:物理流、信息流、能量流、测量、值、位置、状态、效果、功能、形状、组件、属性、后果、系统、材料、科学概念、其他

语义关系类型

  • 数量:15种
  • 示例:空间关系、部分-整体关系、因果关系、操作关系、由...制成、实例-类别关系、属性关系、生成关系、目的关系、方式关系、别名关系、形成关系、比较关系、测量关系、其他

数据集规模

  • 专利摘要:1010篇
  • 句子数量:3,986句
  • 实体提及:22,833次
  • 语义关系提及:17,412次

数据标注工具

  • 工具名称:Brat
  • 数据格式:.ann

信息提取结果

  • 模型:BiLSTM-CRF用于命名实体识别,BiGRU-2ATTENTION用于语义关系提取
  • 性能
    • 命名实体识别:精确度78.5%,召回率78.0%,F1值78.2%
    • 语义关系提取:精确度89.7%,召回率87.9%,F1值88.6%(含无边关系);精确度32.3%,召回率41.5%,F1值36.3%(不含无边关系)

数据集浏览

  • 浏览系统:BRAT系统
  • 访问链接BRAT系统

模型训练结果

搜集汇总
数据集介绍
main_image_url
构建方式
TFH_Annotated_Dataset的构建基于硬盘薄膜头技术领域的专利文献,采用了精细的信息模式进行标注。该数据集包含17种实体类型和15种语义关系类型,涵盖了从物理流、信息流到科学概念等多种实体,以及空间关系、部分关系、因果关系等多种语义关系。数据标注工作通过名为Brat的基于网络的标注工具完成,标注数据以'.ann'格式保存,便于在Brat环境中展示和操作。
特点
TFH_Annotated_Dataset的特点在于其丰富的实体和语义关系标注,共包含1010篇专利摘要,涉及3986个句子,标注了22,833个实体提及和17,412个语义关系提及。该数据集不仅提供了详细的实体和关系类型分布统计,还通过深度学习模型展示了其在命名实体识别和语义关系抽取任务中的应用效果,为技术管理领域的研究提供了宝贵的数据资源。
使用方法
使用TFH_Annotated_Dataset时,用户可以通过Brat系统浏览和操作标注数据。数据集支持深度学习模型进行信息抽取任务,如命名实体识别和语义关系抽取。用户还可以访问提供的BRAT系统查看模型训练后的信息抽取结果。此外,数据集的使用还包括对专利语言语义表示的改进,通过训练特定领域的词嵌入,提高了模型在命名实体识别和语义关系抽取任务中的性能。
背景与挑战
背景概述
TFH_Annotated_Dataset是一个专注于硬盘中薄膜头技术的标注专利数据集,由Chen等人于2020年发布。该数据集是技术管理领域中第二个公开的标注专利数据集,不仅标注了实体,还标注了实体之间的语义关系。数据集包含1010篇专利摘要,共计3986个句子,标注了22833个实体提及和17412个语义关系提及。其信息模式精心设计,涵盖了17种实体类型和15种语义关系类型。该数据集的发布为专利文档中的语义信息提取提供了重要资源,推动了深度学习模型在专利分析中的应用。
当前挑战
TFH_Annotated_Dataset在构建和应用过程中面临多重挑战。首先,专利文本的复杂性和专业性使得实体识别和关系提取任务尤为困难,尤其是在有限的标注数据下,模型的性能显著低于通用数据集。其次,数据集的构建依赖于人工标注,标注过程中需要处理大量技术术语和复杂的语义关系,这对标注人员的专业知识和耐心提出了极高要求。此外,尽管使用了先进的深度学习模型如BiLSTM-CRF和BiGRU-2ATTENTION,模型在特定实体和关系类型上的表现仍存在显著差异,表明现有方法在处理专利文本时仍有改进空间。
常用场景
经典使用场景
TFH_Annotated_Dataset在技术管理领域中被广泛用于专利文档的语义信息提取研究。该数据集通过标注专利中的实体及其语义关系,为研究人员提供了一个丰富的资源,用于开发和测试自然语言处理模型,特别是在命名实体识别和语义关系提取任务中。
衍生相关工作
基于TFH_Annotated_Dataset,研究人员开发了多种深度学习模型,如BiLSTM-CRF和BiGRU-2ATTENTION,用于命名实体识别和语义关系提取。这些模型在专利文档处理中的应用,不仅推动了自然语言处理技术的发展,也为专利分析和知识管理提供了新的方法和工具。
数据集最近研究
最新研究方向
近年来,TFH_Annotated_Dataset在技术管理领域的信息抽取研究中展现了显著的前沿性。该数据集专注于薄膜磁头技术专利的语义信息抽取,涵盖了17种实体类型和15种语义关系类型,为深度学习模型提供了丰富的标注数据。当前研究热点主要集中在利用BiLSTM-CRF和BiGRU-2ATTENTION等深度学习模型进行命名实体识别和语义关系抽取。尽管模型在通用数据集上表现优异,但在专利文本上的性能仍有提升空间,主要受限于标注数据量的不足。未来研究方向可能包括进一步扩展数据集规模、优化模型架构以提升专利文本的语义理解能力,以及探索跨领域迁移学习的应用,以推动技术管理领域的智能化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作