SIRIS-Lab/unlabelled-sti-corpus

Name: SIRIS-Lab/unlabelled-sti-corpus
Creator: SIRIS-Lab
Published: 2026-05-08 11:57:25
License: 暂无描述

Hugging Face2026-05-08 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/SIRIS-Lab/unlabelled-sti-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

**unlabelled-sti-corpus** 是一个多样化的数据集，旨在为科学、技术和创新（STI）记录开发信息提取数据集（如文本分类或命名实体识别）。该语料库包含约35,000条记录，来自四个主要存储库：OpenAlex的22,500篇出版物、CORDIS的10,000个欧洲研究项目、Interreg和Kohesio的5,000个区域项目以及Lens.org的7,000项专利。数据集按学科和领域类别分层，以确保涵盖广泛的主题和领域。它适用于标注任务，可以支持STI研究中的各种下游应用，包括从文本数据中提取实体、关系和其他结构化信息。数据集未标注，用户需为特定应用准备自己的标注子集。

The unlabelled-sti-corpus is a diverse dataset designed for developing information extraction datasets (i.e. text classification or NER) for Science, Technology, and Innovation (STI) records. The corpus contains approximately 35,000 records sourced from four major repositories: OpenAlex (22,500 publications), CORDIS (10,000 European research projects), Interreg and Kohesio (5,000 regional projects), and Lens.org (7,000 patents). The dataset is stratified across disciplines and field categories to ensure representation of a wide range of topics and domains. It is intended for labelling tasks that can support a variety of downstream applications in STI research, including extracting entities, relations, and other structured information from textual data. The dataset is unannotated and intended for labelling tasks, meaning users must prepare their own labelled subsets for specific applications.

提供机构：

SIRIS-Lab

搜集汇总

数据集介绍

构建方式

该数据集名为unlabelled-sti-corpus，专为科学、技术与创新领域的信息抽取任务而设计。其构建过程融合了来自四大权威数据源的记录，包括OpenAlex中的22,500篇学术出版物、CORDIS的10,000个欧洲研究项目、Interreg与Kohesio的5,000个区域项目，以及Lens.org的7,000项专利，总计约44,500条记录。为确保主题与领域的广泛覆盖，数据按学科与领域类别进行分层抽样，涵盖工程、生命科学、社会科学等多个领域。所有记录均为未标注的原始文本，包含标题、摘要及类型字段，旨在为用户提供灵活的基础数据，以便自行构建适用于特定下游任务的标注子集。

特点

该数据集的核心特点在于其多样性与代表性。通过整合出版、项目及专利等多类型记录，并跨英、西、法、德、意、葡六种语言，它有效反映了全球STI领域的知识生态。约35,000至44,500条记录的规模适中，适合中等规模的数据集开发。分层抽样策略确保了学科平衡，避免了单一来源或领域的偏差。此外，所有数据均遵循Apache-2.0开源协议，便于学术界与工业界自由使用。其未标注特性赋予用户极大的灵活性，可用于文本分类、命名实体识别等任务，支持实体、关系及结构化信息的多层次抽取。

使用方法

使用该数据集时，用户需根据具体任务自行准备标注数据。建议首先按需筛选记录子集，如聚焦特定学科或语言，然后制定标注方案。对于文本分类任务，可基于标题与摘要字段设计类别标签；对于命名实体识别，需定义实体类型并标注文本中的实体边界与类别。由于数据集结构简洁，字段包含id、title、abstract和type，易于集成至机器学习管线。用户可借助HuggingFace Datasets库加载数据，并通过现有工具如spaCy或Transformers进行预处理与模型训练。最终标注结果可用于构建定制化模型，赋能STI领域的知识挖掘与决策支持。

背景与挑战

背景概述

unlabelled-sti-corpus数据集诞生于科学技术与创新（STI）领域信息抽取需求日益增长的背景下，由多个国际研究机构联合构建。该数据集于近年来创建，整合了来自OpenAlex、CORDIS、Interreg、Kohesio及Lens.org四大权威数据源的约35,000条记录，涵盖学术出版物、欧洲科研项目、区域合作项目及专利文献。其核心研究问题聚焦于为STI领域的信息抽取任务（如文本分类与命名实体识别）提供多样化的训练基础，并通过对学科领域的分层抽样确保跨工程、生命科学、社会科学等领域的代表性。该数据集对STI研究的影响在于弥补了现有标注资源在领域覆盖广度与数据异构性上的不足，为构建通用型STI信息抽取模型奠定了坚实的数据基础。

当前挑战

unlabelled-sti-corpus所解决的领域问题核心在于STI数据的高度异构性：不同来源的记录（如学术论文的严谨表述与政策文档的官样措辞）在语言风格、结构规范及术语分布上存在显著差异，传统模型难以统一处理跨领域文本。构建过程中的挑战主要体现在三方面：一是多源数据的标准化整合，需将OpenAlex的元数据字段、CORDIS的项目描述以及Lens.org的专利摘要等异构格式映射至统一框架；二是学科分层的平衡性，需避免特定领域（如生命科学）过度代表而稀释其他领域特征；三是无标注数据生态的局限性，用户必须自行完成下游任务的标签工程，这增加了模型开发的时间成本与领域专家依赖度。

常用场景

经典使用场景

在科技与创新（STI）研究领域，信息抽取是解析科研文献、专利与项目报告的关键技术。unlabelled-sti-corpus 汇聚了来自 OpenAlex、CORDIS、Interreg、Kohesio 及 Lens.org 等多源异构数据源，涵盖约 44,500 条科学出版物、欧洲研究项目、区域合作项目及专利记录。该数据集经典使用场景在于为文本分类与命名实体识别任务提供未标注的原始语料，研究者可据此构建打标签流程，训练模型以自动识别 STI 文本中的技术领域、机构名称、项目类型等关键实体。其跨学科分层设计确保了工程技术、生命科学、社会科学等领域的均衡覆盖，从而支持开发泛化能力强的信息抽取系统。

实际应用

在实际应用中，unlabelled-sti-corpus 能够赋能科技政策分析与创新管理工具的开发。科技政策制定者可利用基于该数据训练的分类模型，自动从海量项目报告中提取技术主题与协作网络，从而评估区域研发投入分布。企业创新团队可借助命名实体识别系统，从专利文献中快速锁定关键技术持有者与专利族关系，支撑竞争情报分析。此外，科研资助机构能够通过语义标注工具，追踪研究项目从设计到产出的全链条信息，优化资源配置。该数据集的跨语种特性（涵盖英语、西班牙语、法语等）更使其适用于跨国科技合作监测与知识转移研究。

衍生相关工作

unlabelled-sti-corpus 的发布催生了多个方向的基础工作。一方面，研究者基于该语料开发了针对 STI 文本的主动学习标注框架，通过不确定性采样策略降低人工标注成本。另一方面，衍生出面向专利-项目关联分析的弱监督关系抽取模型，利用外部知识库的启发式规则生成训练信号。还有工作聚焦于跨语言实体对齐，借助多语种子集训练对齐模型以弥合不同来源的术语差异。此外，分层学科结构被用于构建领域自适应预训练语言模型，通过动态掩码策略增强对科技专有名词的表示能力，这些工作共同丰富了科技情报挖掘的技术栈。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集