Text2Tech

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/DFKI-SLT/Text2Tech

下载链接

链接失效反馈

官方服务：

资源简介：

Text2Tech Curated Documents数据集是一个适用于自然语言处理任务的简化格式数据集，由UIMA CAS 0.4 JSON格式转换而来。数据集提供了命名实体识别（NER）、实体链接（EL）和关系抽取（RE）的配置。数据集结构包括文档标识符、标记列表、命名实体标签、实体提及和关系信息。

创建时间：

2025-08-26

原始信息汇总

Text2Tech Curated Documents 数据集概述

数据集简介

Text2Tech Curated Documents数据集是从UIMA CAS 0.4 JSON格式（Inception标注工具导出）转换而来的简化格式，专为自然语言处理任务设计。该数据集提供命名实体识别（NER）、实体链接（EL）和关系抽取（RE）三种配置。

基本属性

语言：英语
多语言性：单语
数据规模：100-1,000条样本
许可协议：未知
标注创建方式：专家生成
语言创建方式：从现有数据发现
数据来源：原始数据

任务配置

命名实体识别（ner）

数据文件：ner.parquet
特征字段：
- docid：文档标识符（字符串）
- tokens：文档中的词元列表（字符串列表）
- ner_tags：使用spaCy BILUO标注方案的分类标签列表（字符串列表）

实体链接（el）

数据文件：el.parquet
特征字段：
- docid：文档标识符（字符串）
- tokens：文档中的词元列表（字符串列表）
- ner_tags：命名实体识别标签列表（字符串列表）
- entity_mentions：实体提及结构体列表，包含：
  - text：实体文本（字符串）
  - start：词元偏移起始位置（整型）
  - end：词元偏移结束位置（整型）
  - char_start：字符偏移起始位置（整型）
  - char_end：字符偏移结束位置（整型）
  - type：实体类型分类标签（整型）
  - entity_id：知识库实体标识符（字符串）

关系抽取（re）

数据文件：re.parquet
特征字段：
- docid：文档标识符（字符串）
- tokens：文档中的词元列表（字符串列表）
- ner_tags：命名实体识别标签列表（字符串列表）
- relations：关系结构体列表，包含：
  - id：关系标识符（字符串）
  - head_start：头部实体词元偏移起始位置（整型）
  - head_end：头部实体词元偏移结束位置（整型）
  - head_type：头部实体类型分类标签（整型）
  - tail_start：尾部实体词元偏移起始位置（整型）
  - tail_end：尾部实体词元偏移结束位置（整型）
  - tail_type：尾部实体类型分类标签（整型）
  - type：关系类型分类标签（整型）

数据统计

ner配置：
- 训练集：135个样本，917,085字节
- 下载大小：190,248字节
- 数据集大小：917,085字节
el配置：
- 训练集：135个样本，1,807,601字节
- 下载大小：345,738字节
- 数据集大小：1,807,601字节
re配置：
- 训练集：135个样本，1,095,051字节
- 下载大小：210,872字节
- 数据集大小：1,095,051字节

标注体系

命名实体类型

Organization（组织）
Method（方法）
Technological System（技术系统）
Material（材料）
Technical Field（技术领域）

关系类型

ts:executes
org:develops_or_provides
ts:contains
ts:made_of
ts:uses
ts:supports
met:employs
met:processes
mat:transformed_to
org:collaborates
met:creates
met:applied_to
ts:processes

技术细节

转换工具：使用dkpro-cassis库加载原始标注，spaCy进行词元化和BIO标签创建
数据格式：与DFKI-SLT/mobie数据集结构相似以确保兼容性
标注方案：NER标签使用spaCy的BILUO标注方案

数据集创建

数据集通过处理从Inception标注工具导出的JSON文件创建，使用inception_converter.py脚本进行转换处理。

维护信息

数据集维护者：Amir Safari
发布年份：2025年
发布平台：Hugging Face

搜集汇总

数据集介绍

构建方式

在技术文档结构化信息抽取领域，Text2Tech数据集通过专业标注工具Inception构建而成，采用UIMA CAS JSON格式导出原始标注数据。借助dkpro-cassis库解析标注结构，结合spaCy进行精细化分词处理，最终转换为适用于自然语言处理任务的标准化格式。该数据集严格遵循DFKI-SLT/mobie数据集的结构规范，确保数据的一致性与可复用性。

使用方法

研究者可通过HuggingFace平台直接加载ner/el/re三种配置，分别对应不同信息抽取任务。数据以parquet格式存储，支持高效读取与分布式处理。使用时应依据任务需求选择相应配置：ner配置提供BILUO标注序列，el配置包含实体指称与知识库链接，re配置提供实体间关系三元组。建议结合现代深度学习框架如Transformers进行模型训练，特别注意处理嵌套实体与复杂关系结构时的特征对齐。

背景与挑战

背景概述

Text2Tech数据集由Amir Safari于2025年构建，专注于技术领域的自然语言处理研究。该数据集源自UIMA CAS JSON格式的标注数据，通过Inception标注工具生成，并利用dkpro-cassis库和spaCy工具进行标准化处理。其核心研究问题聚焦于技术文本中的命名实体识别、实体链接和关系抽取，旨在推动技术文献的自动化解析与知识提取，为人工智能在技术情报分析领域的应用提供重要数据支撑。

当前挑战

该数据集致力于解决技术领域文本中复杂实体与关系的精确识别问题，包括技术系统、方法和材料等专业实体的标注与链接。构建过程中的挑战主要体现在技术术语的多样性导致标注一致性难以保证，以及实体链接需跨知识库对齐的复杂性。此外，从原始UIMA CAS格式到标准化NLP格式的转换需克服数据结构差异和标签映射的精确性问题，同时需确保与现有处理框架的兼容性。

常用场景

经典使用场景

在技术文档智能处理领域，Text2Tech数据集为命名实体识别、实体链接和关系抽取任务提供了标准化评估基准。该数据集采用专业标注的技术文献，涵盖组织机构、技术系统、材料方法等实体类型，以及十三种技术关系类别。研究者可基于其BILUO标注体系和知识库链接信息，开发高精度信息提取模型，推动技术文本的结构化解析能力提升。

解决学术问题

该数据集有效解决了技术领域文本中专业术语识别模糊、实体关系复杂等学术难题。通过提供精确的实体边界标注和知识库映射，支持跨文档实体统一表示学习，显著提升了技术文献的语义理解深度。其多任务标注体系为联合学习模型提供了实验基础，推动了信息抽取技术在垂直领域的范式创新。

实际应用

技术情报分析系统中，Text2Tech支持自动构建技术知识图谱，实时追踪企业技术布局与研发趋势。专利分析机构借助其关系抽取能力，识别技术演进路径和竞争关系。科技政策研究部门利用实体链接功能，建立技术主体与创新成果的关联网络，为决策提供数据驱动的洞察支持。

数据集最近研究