five

Text2Tech

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/DFKI-SLT/Text2Tech
下载链接
链接失效反馈
官方服务:
资源简介:
Text2Tech Curated Documents数据集是一个适用于自然语言处理任务的简化格式数据集,由UIMA CAS 0.4 JSON格式转换而来。数据集提供了命名实体识别(NER)、实体链接(EL)和关系抽取(RE)的配置。数据集结构包括文档标识符、标记列表、命名实体标签、实体提及和关系信息。
创建时间:
2025-08-26
原始信息汇总

Text2Tech Curated Documents 数据集概述

数据集简介

Text2Tech Curated Documents数据集是从UIMA CAS 0.4 JSON格式(Inception标注工具导出)转换而来的简化格式,专为自然语言处理任务设计。该数据集提供命名实体识别(NER)、实体链接(EL)和关系抽取(RE)三种配置。

基本属性

  • 语言:英语
  • 多语言性:单语
  • 数据规模:100-1,000条样本
  • 许可协议:未知
  • 标注创建方式:专家生成
  • 语言创建方式:从现有数据发现
  • 数据来源:原始数据

任务配置

命名实体识别(ner)

  • 数据文件:ner.parquet
  • 特征字段
    • docid:文档标识符(字符串)
    • tokens:文档中的词元列表(字符串列表)
    • ner_tags:使用spaCy BILUO标注方案的分类标签列表(字符串列表)

实体链接(el)

  • 数据文件:el.parquet
  • 特征字段
    • docid:文档标识符(字符串)
    • tokens:文档中的词元列表(字符串列表)
    • ner_tags:命名实体识别标签列表(字符串列表)
    • entity_mentions:实体提及结构体列表,包含:
      • text:实体文本(字符串)
      • start:词元偏移起始位置(整型)
      • end:词元偏移结束位置(整型)
      • char_start:字符偏移起始位置(整型)
      • char_end:字符偏移结束位置(整型)
      • type:实体类型分类标签(整型)
      • entity_id:知识库实体标识符(字符串)

关系抽取(re)

  • 数据文件:re.parquet
  • 特征字段
    • docid:文档标识符(字符串)
    • tokens:文档中的词元列表(字符串列表)
    • ner_tags:命名实体识别标签列表(字符串列表)
    • relations:关系结构体列表,包含:
      • id:关系标识符(字符串)
      • head_start:头部实体词元偏移起始位置(整型)
      • head_end:头部实体词元偏移结束位置(整型)
      • head_type:头部实体类型分类标签(整型)
      • tail_start:尾部实体词元偏移起始位置(整型)
      • tail_end:尾部实体词元偏移结束位置(整型)
      • tail_type:尾部实体类型分类标签(整型)
      • type:关系类型分类标签(整型)

数据统计

  • ner配置

    • 训练集:135个样本,917,085字节
    • 下载大小:190,248字节
    • 数据集大小:917,085字节
  • el配置

    • 训练集:135个样本,1,807,601字节
    • 下载大小:345,738字节
    • 数据集大小:1,807,601字节
  • re配置

    • 训练集:135个样本,1,095,051字节
    • 下载大小:210,872字节
    • 数据集大小:1,095,051字节

标注体系

命名实体类型

  • Organization(组织)
  • Method(方法)
  • Technological System(技术系统)
  • Material(材料)
  • Technical Field(技术领域)

关系类型

  • ts:executes
  • org:develops_or_provides
  • ts:contains
  • ts:made_of
  • ts:uses
  • ts:supports
  • met:employs
  • met:processes
  • mat:transformed_to
  • org:collaborates
  • met:creates
  • met:applied_to
  • ts:processes

技术细节

  • 转换工具:使用dkpro-cassis库加载原始标注,spaCy进行词元化和BIO标签创建
  • 数据格式:与DFKI-SLT/mobie数据集结构相似以确保兼容性
  • 标注方案:NER标签使用spaCy的BILUO标注方案

数据集创建

数据集通过处理从Inception标注工具导出的JSON文件创建,使用inception_converter.py脚本进行转换处理。

维护信息

  • 数据集维护者:Amir Safari
  • 发布年份:2025年
  • 发布平台:Hugging Face
搜集汇总
数据集介绍
main_image_url
构建方式
在技术文档结构化信息抽取领域,Text2Tech数据集通过专业标注工具Inception构建而成,采用UIMA CAS JSON格式导出原始标注数据。借助dkpro-cassis库解析标注结构,结合spaCy进行精细化分词处理,最终转换为适用于自然语言处理任务的标准化格式。该数据集严格遵循DFKI-SLT/mobie数据集的结构规范,确保数据的一致性与可复用性。
使用方法
研究者可通过HuggingFace平台直接加载ner/el/re三种配置,分别对应不同信息抽取任务。数据以parquet格式存储,支持高效读取与分布式处理。使用时应依据任务需求选择相应配置:ner配置提供BILUO标注序列,el配置包含实体指称与知识库链接,re配置提供实体间关系三元组。建议结合现代深度学习框架如Transformers进行模型训练,特别注意处理嵌套实体与复杂关系结构时的特征对齐。
背景与挑战
背景概述
Text2Tech数据集由Amir Safari于2025年构建,专注于技术领域的自然语言处理研究。该数据集源自UIMA CAS JSON格式的标注数据,通过Inception标注工具生成,并利用dkpro-cassis库和spaCy工具进行标准化处理。其核心研究问题聚焦于技术文本中的命名实体识别、实体链接和关系抽取,旨在推动技术文献的自动化解析与知识提取,为人工智能在技术情报分析领域的应用提供重要数据支撑。
当前挑战
该数据集致力于解决技术领域文本中复杂实体与关系的精确识别问题,包括技术系统、方法和材料等专业实体的标注与链接。构建过程中的挑战主要体现在技术术语的多样性导致标注一致性难以保证,以及实体链接需跨知识库对齐的复杂性。此外,从原始UIMA CAS格式到标准化NLP格式的转换需克服数据结构差异和标签映射的精确性问题,同时需确保与现有处理框架的兼容性。
常用场景
经典使用场景
在技术文档智能处理领域,Text2Tech数据集为命名实体识别、实体链接和关系抽取任务提供了标准化评估基准。该数据集采用专业标注的技术文献,涵盖组织机构、技术系统、材料方法等实体类型,以及十三种技术关系类别。研究者可基于其BILUO标注体系和知识库链接信息,开发高精度信息提取模型,推动技术文本的结构化解析能力提升。
解决学术问题
该数据集有效解决了技术领域文本中专业术语识别模糊、实体关系复杂等学术难题。通过提供精确的实体边界标注和知识库映射,支持跨文档实体统一表示学习,显著提升了技术文献的语义理解深度。其多任务标注体系为联合学习模型提供了实验基础,推动了信息抽取技术在垂直领域的范式创新。
实际应用
技术情报分析系统中,Text2Tech支持自动构建技术知识图谱,实时追踪企业技术布局与研发趋势。专利分析机构借助其关系抽取能力,识别技术演进路径和竞争关系。科技政策研究部门利用实体链接功能,建立技术主体与创新成果的关联网络,为决策提供数据驱动的洞察支持。
数据集最近研究
最新研究方向
在科技文本智能处理领域,Text2Tech数据集正推动命名实体识别与关系抽取的融合研究。当前前沿聚焦于跨任务联合学习框架的开发,通过共享表征学习实现实体识别、链接与关系抽取的协同优化。该数据集特有的技术领域实体分类体系(如技术系统、材料、方法等)为构建领域知识图谱提供了重要支撑,近期研究多集中于利用预训练语言模型增强科技文献中的复杂关系推理能力。随着大模型技术在科技情报分析中的应用升温,该数据集成为评估模型在专业技术领域理解能力的关键基准,对促进科技创新情报的自动化挖掘具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作