unlabelled-sti-corpus

Hugging Face2024-11-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SIRIS-Lab/unlabelled-sti-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

**unlabelled-sti-corpus** 数据集是为开发科学、技术与创新（STI）记录的信息提取数据集（如文本分类或命名实体识别）而设计的多样化数据集。该数据集包含约35,000条记录，来源于四个主要资源库：OpenAlex、CORDIS、Interreg和Kohesio。数据集按学科和领域类别进行分层，以确保广泛的主题和领域的代表性。它旨在支持STI研究中的各种下游应用，包括从文本数据中提取实体、关系和其他结构化信息。该数据集未标注，适用于标注任务，用户需为特定应用准备自己的标注子集。

创建时间：

2024-11-30

原始信息汇总

数据集概述

数据集描述

unlabelled-sti-corpus 是一个多样化的数据集，旨在为科学、技术与创新（STI）记录开发信息提取数据集（如文本分类或命名实体识别）。该数据集包含约35,000条记录，来源于四个主要资源库：

OpenAlex：20,000篇出版物
CORDIS：10,000个研究项目
Interreg：2,500个跨区域项目
Kohesio：2,500个区域项目

数据集按学科和领域类别进行分层，以确保广泛的主题和领域的代表性。它适用于支持STI研究中的各种下游应用的标注任务，包括从文本数据中提取实体、关系和其他结构化信息。

数据集创建

数据集创建目的

该数据集的创建是为了满足STI领域信息提取对多样化且具有代表性语料库的需求。通过包含来自多个资源库的记录并按学科分层，该语料库为开发适用于广泛STI应用的模型提供了坚实的基础。

数据来源

数据集汇总了以下来源的记录：

OpenAlex：一个全面的开放学术作品目录。
CORDIS：欧盟主要的研究项目信息资源库。
Interreg：促进欧洲跨区域合作的计划。
Kohesio：区域发展项目的数据库。

按领域类别进行分层，以确保来自不同学科（如工程学、生命科学、社会科学）的记录得到代表。

数据集信息

特征

id: 字符串类型
title: 字符串类型
abstract: 字符串类型
type: 字符串类型

分割

train: 包含37,500个样本，大小为62,790,217字节

下载与数据大小

下载大小: 38,107,127字节
数据集大小: 62,790,217字节

配置

default: 数据文件路径为 data/train-*

许可证

apache-2.0

语言

英语 (en)
西班牙语 (es)
法语 (fr)
德语 (de)
意大利语 (it)
葡萄牙语 (pt)

数据集规模

10K<n<100K

搜集汇总

数据集介绍

构建方式

unlabelled-sti-corpus数据集的构建旨在满足科学、技术与创新（STI）领域信息提取的需求。该数据集汇集了来自多个权威来源的记录，包括OpenAlex的22,500篇学术出版物、CORDIS的10,000个欧洲研究项目、Interreg和Kohesio的5,000个区域项目，以及Lens.org的7,000项专利。通过跨学科和领域的分层设计，确保了数据集在广泛主题和领域中的代表性，为后续的标注任务提供了坚实的基础。

特点

unlabelled-sti-corpus数据集的显著特点在于其多样性和广泛性。该数据集不仅涵盖了多个语言版本，还通过从不同来源获取数据，确保了在科学、技术与创新领域的全面覆盖。此外，数据集的分层设计使其能够支持多种下游应用，如实体提取、关系识别等，为信息提取任务提供了丰富的资源。

使用方法

unlabelled-sti-corpus数据集主要用于标注任务，用户可以根据具体应用需求自行准备标注子集。该数据集适用于多种信息提取任务，如文本分类和命名实体识别（NER），并可用于开发支持STI研究的各种模型。用户可以通过分层数据进行模型训练，以确保模型在不同学科和领域中的适用性。

背景与挑战

背景概述

在科学、技术与创新（STI）领域，信息提取技术的进步对于推动跨学科研究与应用至关重要。unlabelled-sti-corpus数据集应运而生，旨在为STI领域的文本分类和命名实体识别（NER）任务提供一个多样化的未标注语料库。该数据集由主要研究人员或机构精心构建，汇集了来自OpenAlex、CORDIS、Interreg、Kohesio和Lens.org等多个权威资源库的约35,000条记录，涵盖了从学术出版物到专利数据的广泛领域。通过在不同学科和领域类别中进行分层，确保了数据集的广泛代表性，为STI研究中的信息提取任务奠定了坚实的基础。

当前挑战

尽管unlabelled-sti-corpus数据集在多样性和代表性方面表现出色，但其未标注的特性为实际应用带来了显著挑战。用户需自行准备标注子集，这不仅增加了数据处理的复杂性，还要求对STI领域的深入理解以确保标注的准确性和一致性。此外，跨学科数据的整合与分层过程中，如何确保各领域数据的均衡分布与高质量筛选，也是构建过程中面临的重要挑战。这些因素共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

在科学、技术与创新（STI）领域，unlabelled-sti-corpus数据集被广泛用于信息提取任务，如文本分类和命名实体识别（NER）。该数据集通过整合来自多个权威资源（如OpenAlex、CORDIS、Interreg和Lens.org）的记录，提供了丰富的未标注文本数据。研究者可以利用这些数据进行标注任务，进而支持从文本中提取实体、关系及其他结构化信息，以服务于STI研究中的多种下游应用。

衍生相关工作

基于unlabelled-sti-corpus数据集，研究者们开发了多种信息提取模型和算法，用于处理STI领域的文本数据。这些工作包括但不限于多语言NER模型、跨学科文本分类器以及专利信息提取系统。此外，该数据集还激发了关于如何有效利用未标注数据进行监督学习的研究，推动了半监督和无监督学习方法在STI领域的应用。

数据集最近研究