five

unlabelled-sti-corpus

收藏
Hugging Face2024-11-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SIRIS-Lab/unlabelled-sti-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
**unlabelled-sti-corpus** 数据集是为开发科学、技术与创新(STI)记录的信息提取数据集(如文本分类或命名实体识别)而设计的多样化数据集。该数据集包含约35,000条记录,来源于四个主要资源库:OpenAlex、CORDIS、Interreg和Kohesio。数据集按学科和领域类别进行分层,以确保广泛的主题和领域的代表性。它旨在支持STI研究中的各种下游应用,包括从文本数据中提取实体、关系和其他结构化信息。该数据集未标注,适用于标注任务,用户需为特定应用准备自己的标注子集。
创建时间:
2024-11-30
原始信息汇总

数据集概述

数据集描述

unlabelled-sti-corpus 是一个多样化的数据集,旨在为科学、技术与创新(STI)记录开发信息提取数据集(如文本分类或命名实体识别)。该数据集包含约35,000条记录,来源于四个主要资源库:

  • OpenAlex:20,000篇出版物
  • CORDIS:10,000个研究项目
  • Interreg:2,500个跨区域项目
  • Kohesio:2,500个区域项目

数据集按学科和领域类别进行分层,以确保广泛的主题和领域的代表性。它适用于支持STI研究中的各种下游应用的标注任务,包括从文本数据中提取实体、关系和其他结构化信息。

数据集创建

数据集创建目的

该数据集的创建是为了满足STI领域信息提取对多样化且具有代表性语料库的需求。通过包含来自多个资源库的记录并按学科分层,该语料库为开发适用于广泛STI应用的模型提供了坚实的基础。

数据来源

数据集汇总了以下来源的记录:

  • OpenAlex:一个全面的开放学术作品目录。
  • CORDIS:欧盟主要的研究项目信息资源库。
  • Interreg:促进欧洲跨区域合作的计划。
  • Kohesio:区域发展项目的数据库。

按领域类别进行分层,以确保来自不同学科(如工程学、生命科学、社会科学)的记录得到代表。

数据集信息

特征

  • id: 字符串类型
  • title: 字符串类型
  • abstract: 字符串类型
  • type: 字符串类型

分割

  • train: 包含37,500个样本,大小为62,790,217字节

下载与数据大小

  • 下载大小: 38,107,127字节
  • 数据集大小: 62,790,217字节

配置

  • default: 数据文件路径为 data/train-*

许可证

  • apache-2.0

语言

  • 英语 (en)
  • 西班牙语 (es)
  • 法语 (fr)
  • 德语 (de)
  • 意大利语 (it)
  • 葡萄牙语 (pt)

数据集规模

  • 10K<n<100K
搜集汇总
数据集介绍
main_image_url
构建方式
unlabelled-sti-corpus数据集的构建旨在满足科学、技术与创新(STI)领域信息提取的需求。该数据集汇集了来自多个权威来源的记录,包括OpenAlex的22,500篇学术出版物、CORDIS的10,000个欧洲研究项目、Interreg和Kohesio的5,000个区域项目,以及Lens.org的7,000项专利。通过跨学科和领域的分层设计,确保了数据集在广泛主题和领域中的代表性,为后续的标注任务提供了坚实的基础。
特点
unlabelled-sti-corpus数据集的显著特点在于其多样性和广泛性。该数据集不仅涵盖了多个语言版本,还通过从不同来源获取数据,确保了在科学、技术与创新领域的全面覆盖。此外,数据集的分层设计使其能够支持多种下游应用,如实体提取、关系识别等,为信息提取任务提供了丰富的资源。
使用方法
unlabelled-sti-corpus数据集主要用于标注任务,用户可以根据具体应用需求自行准备标注子集。该数据集适用于多种信息提取任务,如文本分类和命名实体识别(NER),并可用于开发支持STI研究的各种模型。用户可以通过分层数据进行模型训练,以确保模型在不同学科和领域中的适用性。
背景与挑战
背景概述
在科学、技术与创新(STI)领域,信息提取技术的进步对于推动跨学科研究与应用至关重要。unlabelled-sti-corpus数据集应运而生,旨在为STI领域的文本分类和命名实体识别(NER)任务提供一个多样化的未标注语料库。该数据集由主要研究人员或机构精心构建,汇集了来自OpenAlex、CORDIS、Interreg、Kohesio和Lens.org等多个权威资源库的约35,000条记录,涵盖了从学术出版物到专利数据的广泛领域。通过在不同学科和领域类别中进行分层,确保了数据集的广泛代表性,为STI研究中的信息提取任务奠定了坚实的基础。
当前挑战
尽管unlabelled-sti-corpus数据集在多样性和代表性方面表现出色,但其未标注的特性为实际应用带来了显著挑战。用户需自行准备标注子集,这不仅增加了数据处理的复杂性,还要求对STI领域的深入理解以确保标注的准确性和一致性。此外,跨学科数据的整合与分层过程中,如何确保各领域数据的均衡分布与高质量筛选,也是构建过程中面临的重要挑战。这些因素共同构成了该数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在科学、技术与创新(STI)领域,unlabelled-sti-corpus数据集被广泛用于信息提取任务,如文本分类和命名实体识别(NER)。该数据集通过整合来自多个权威资源(如OpenAlex、CORDIS、Interreg和Lens.org)的记录,提供了丰富的未标注文本数据。研究者可以利用这些数据进行标注任务,进而支持从文本中提取实体、关系及其他结构化信息,以服务于STI研究中的多种下游应用。
衍生相关工作
基于unlabelled-sti-corpus数据集,研究者们开发了多种信息提取模型和算法,用于处理STI领域的文本数据。这些工作包括但不限于多语言NER模型、跨学科文本分类器以及专利信息提取系统。此外,该数据集还激发了关于如何有效利用未标注数据进行监督学习的研究,推动了半监督和无监督学习方法在STI领域的应用。
数据集最近研究
最新研究方向
在科学、技术与创新(STI)领域,**unlabelled-sti-corpus**数据集的最新研究方向主要集中在信息提取任务的自动化与精细化上。该数据集通过整合来自多个权威资源(如OpenAlex、CORDIS、Interreg和Lens.org)的多样化记录,为研究者提供了丰富的未标注文本数据,支持诸如文本分类、命名实体识别(NER)等任务。随着STI领域对跨学科研究需求的增加,该数据集的广泛代表性使其成为开发跨领域信息提取模型的理想选择。当前的研究趋势聚焦于如何利用这一数据集进行高效的标注策略设计,以及如何通过预训练和迁移学习技术提升模型的泛化能力,从而在STI研究中实现更精准的实体和关系提取。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作