five

IRIS dataset

收藏
arXiv2025-01-10 更新2025-01-14 收录
下载链接:
https://github.com/open-sci/2023-2024/blob/main/docs/Atreides/material.md
下载链接
链接失效反馈
官方服务:
资源简介:
IRIS数据集由博洛尼亚大学的IRIS系统生成,旨在提供该校所有出版物的元数据信息。该数据集包含304,983条文献记录,涵盖了研究文章、书籍、数据库等多种出版物类型,总大小为267MB。数据集中详细记录了作者、出版标识符(如DOI)、语言、标题、出版日期等元数据信息。数据集的创建过程涉及从IRIS系统中提取并筛选出可公开的元数据,并以CSV格式发布。该数据集主要用于文献计量学和开放科学研究,旨在评估博洛尼亚大学出版物在开放研究信息平台中的覆盖情况,并为开放科学政策的制定提供数据支持。

The IRIS Dataset is generated by the IRIS System of the University of Bologna, which is designed to provide metadata for all publications of the university. It contains 304,983 bibliographic records, covering diverse publication types such as research articles, books, and databases, with a total size of 267 MB. The dataset comprehensively records metadata including authors, publication identifiers (e.g., DOI), language, title, publication date and other related information. The dataset was developed by extracting and screening publicly available metadata from the IRIS System, and is distributed in CSV format. This dataset is primarily utilized for bibliometric and open science research, with the goals of assessing the coverage of the University of Bologna's publications on open research information platforms and providing data support for the formulation of open science policies.
提供机构:
博洛尼亚大学
创建时间:
2025-01-10
搜集汇总
数据集介绍
main_image_url
构建方式
IRIS数据集的构建基于博洛尼亚大学的研究信息管理系统(IRIS),该系统由CINECA开发,广泛用于意大利各大学。数据集通过提取IRIS系统中的文献元数据,并结合OpenCitations的开放引文数据,形成了一个包含304,983个文献实体的数据集。数据集的构建过程包括数据过滤、验证、去重和与OpenCitations数据的对比,最终生成了七个CSV文件,涵盖了作者、出版物标识符、语言、出版日期等详细信息。
特点
IRIS数据集的特点在于其广泛的文献类型覆盖,包括期刊文章、书籍、会议论文等多种形式。数据集不仅包含基本的文献元数据,还涉及与出版相关的特定许可信息和个人数据。此外,数据集通过OpenCitations的开放引文数据,提供了文献之间的引用关系,使得研究者能够深入分析文献的引用网络。数据集的结构化设计使得其易于与其他开放科学基础设施进行集成和互操作。
使用方法
IRIS数据集的使用方法主要包括数据下载、数据清洗和分析。研究者可以通过博洛尼亚大学的机构知识库(AMSActa)获取数据集,并使用提供的CSV文件进行文献元数据的分析。数据集的使用场景包括文献覆盖率分析、引用网络研究以及开放科学基础设施的评估。通过结合OpenCitations的引文数据,研究者可以进一步探索文献的引用行为及其在学术交流中的作用。
背景与挑战
背景概述
IRIS数据集是由意大利博洛尼亚大学的研究团队于2024年创建的一个开放研究信息数据集,旨在分析博洛尼亚大学的研究成果在开放研究信息平台OpenCitations中的覆盖情况。该数据集的核心研究问题包括评估博洛尼亚大学出版物在OpenCitations中的覆盖率,以及这些出版物在OpenCitations中的引用情况。IRIS数据集的创建基于博洛尼亚大学的机构研究信息系统(CRIS),并通过与OpenCitations的合作,生成了包含304,983个文献实体的数据集。该数据集的研究背景与开放科学运动密切相关,尤其是《巴塞罗那开放研究信息宣言》的推动,强调了开放研究信息的重要性。IRIS数据集的发布为学术界提供了一个透明且可重复的研究框架,推动了开放研究信息的广泛应用。
当前挑战
IRIS数据集在构建和应用过程中面临多重挑战。首先,数据集的核心问题在于如何准确评估博洛尼亚大学出版物在OpenCitations中的覆盖率。尽管OpenCitations是一个开放的引用数据平台,但其覆盖范围有限,仅包含参与引用关系的文献实体,导致IRIS中37.7%的文献未被OpenCitations收录。其次,数据集的构建过程中,研究人员需要处理大量重复的文献实体和无效的标识符(如DOI、ISBN、PMID),并通过复杂的去重和验证流程确保数据的准确性。此外,IRIS数据集中的文献类型多样,包括期刊文章、书籍章节、会议论文等,这些类型在OpenCitations中的映射和匹配也带来了技术上的挑战。最后,IRIS数据集的应用还面临与专有数据库(如Scopus和Web of Science)的对比分析问题,如何在开放数据与专有数据之间建立可比性,仍需进一步研究。
常用场景
经典使用场景
IRIS数据集在学术研究中的经典使用场景主要集中在对大学博洛尼亚分校(UNIBO)的出版物元数据进行分析,尤其是与开放研究信息平台OpenCitations的覆盖范围进行比较。通过IRIS数据集,研究人员能够量化UNIBO出版物在OpenCitations中的覆盖率,并评估其引用链接的数量和类型。这一场景为学术机构提供了关于其研究成果在开放科学基础设施中的可见性和影响力的重要洞察。
衍生相关工作
IRIS数据集衍生了一系列与开放科学和学术元数据分析相关的经典工作。例如,基于IRIS数据集的研究推动了OpenCitations等开放科学基础设施的扩展,促进了更多学术机构将其出版物元数据开放化。此外,该数据集还为其他开放科学项目提供了数据支持,如欧洲开放科学云(EOSC)的互操作性框架,进一步推动了开放研究信息的全球共享与合作。
数据集最近研究
最新研究方向
近年来,IRIS数据集在开放科学和学术信息管理领域的研究方向主要集中在开放获取与学术元数据的覆盖度分析上。随着开放科学运动的推进,越来越多的研究机构开始关注如何将学术成果的元数据开放化,以促进透明度和可重复性。IRIS数据集作为博洛尼亚大学的研究信息管理系统,其元数据覆盖度在OpenCitations等开放学术信息平台中的表现成为研究热点。研究表明,IRIS中的期刊文章在OpenCitations中的覆盖率最高,达到90.1%,而其他类型的出版物如书籍章节和会议论文的覆盖率较低。这一发现揭示了开放学术信息平台在覆盖多样化研究成果方面的不足,尤其是在非传统出版物类型上的数据缺失。此外,研究还探讨了如何通过技术互操作性和语义对齐来提升IRIS与OpenCitations等开放平台的数据整合,以推动开放科学基础设施的广泛应用。这些研究不仅为学术评估提供了新的数据支持,也为全球范围内的开放科学实践提供了重要参考。
相关研究论文
  • 1
    Analysing the coverage of the University of Bologna's publication metadata in an existing source of open research information博洛尼亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作