SciGA-145k
收藏arXiv2025-07-03 更新2025-07-05 收录
下载链接:
https://huggingface.co/datasets/iyatomilab/SciGA
下载链接
链接失效反馈官方服务:
资源简介:
SciGA-145k是一个包含约145,000篇科学论文和1.14百万张图表的大型数据集,旨在支持图形摘要(GA)的选择和推荐,以及促进自动化GA生成的科学研究。数据集包括三种类型的GA:原始(新创建的)、复用(直接从论文图表中复制)和修改(结合/修改现有图表)。SciGA-145k为GA创建、推荐和未来自动化生成提供了全面和结构化的资源。
SciGA-145k is a large-scale dataset comprising approximately 145,000 scientific papers and 1.14 million figures. It is designed to support the selection and recommendation of graphical abstracts (GA), as well as advance scientific research into automated GA generation. The dataset includes three types of GAs: original (newly created), reused (directly copied from paper figures), and modified (combined or modified existing figures). SciGA-145k provides a comprehensive and structured resource for GA creation, recommendation and future automated generation research.
提供机构:
法政大学, 日本
创建时间:
2025-07-03
原始信息汇总
数据集概述
基本信息
- 数据集名称: SciGA
- 托管平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/iyatomilab/SciGA
许可信息
- 许可证类型: c-uda
搜集汇总
数据集介绍

构建方式
SciGA-145k数据集的构建过程体现了科学文献视觉化研究的前沿需求,通过系统化采集arXiv平台上2012至2024年间约14.5万篇论文的全文内容及114万张关联图表,构建了当前规模最大的学术图形摘要资源库。数据采集采用多模态融合策略,既包含从HTML版本提取的结构化文本(含数学公式、脚注等特殊标记),又整合了TEX源文件中的原始图表资源,并通过人工标注将图形摘要细分为原创型、复用型和修改型三大类,同时标注了论文中的导读图像。数据集采用分层分类体系,涵盖arXiv、ACM-CCS和MSC三大分类标准,确保学科覆盖的全面性。
特点
该数据集的核心价值在于其首创性的多维度标注体系:不仅完整保留了论文的层级结构、子图关系等视觉元素特征,还创新性地标注了图形摘要的创作类型(原创/复用/修改)及其组成要素。相较于现有科学文献数据集,SciGA-145k首次实现了全文内容、可视化元素与图形摘要标注的三元对齐,其145k论文规模较同类资源提升两个数量级。特别值得注意的是,数据统计分析显示不同学科存在显著的视觉表达差异,例如物理学论文偏好实验装置图示,而计算机科学文献常呈现模型架构图,这种领域特异性为跨学科视觉传播研究提供了宝贵素材。
使用方法
数据集支持两种创新性研究任务:论文内图形摘要推荐(Intra-GA)通过对比摘要文本与图表caption的语义关联度,识别最适合作为图形摘要的候选图表;跨论文图形摘要推荐(Inter-GA)则利用对比学习模型在嵌入空间检索语义相似的异源图形摘要。为评估模型性能,研究者提出CAR@k新指标,通过置信度调整机制解决传统排序指标在多重合理候选场景下的评估局限。实际应用中,用户可基于CLIP等视觉语言模型构建特征提取管道,或直接调用提供的基准模型进行迁移学习,相关代码和预处理数据已在HuggingFace平台开源。
背景与挑战
背景概述
SciGA-145k是由日本法政大学的Takuro Kawada、Shunsuke Kitada、Sota Nemoto和Hitoshi Iyatomi等研究人员于2025年提出的一个大规模数据集,旨在支持学术论文中图形摘要(Graphical Abstracts, GAs)的设计与研究。该数据集包含约14.5万篇科学论文和114万张图表,是首个专注于图形摘要选择、推荐和自动生成的数据集。图形摘要在科学传播中扮演着关键角色,能够直观地传达论文的核心发现,但其设计通常需要高级的可视化技能,限制了广泛应用。SciGA-145k通过提供丰富的标注数据(包括原始、重用和修改三类图形摘要)以及全文内容和图表支持,为科学视觉传播研究奠定了重要基础。
当前挑战
SciGA-145k面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,图形摘要的设计需要平衡视觉吸引力和科学准确性,避免因过度抽象而导致误解。此外,图形摘要的多样性和领域依赖性使得通用设计准则难以制定。在构建过程中,数据集的创建面临标注复杂性(如区分三类图形摘要)和规模扩展的难题,尤其是从开放获取期刊中收集高质量的图形摘要样本。此外,传统基于排名的评估指标(如Recall@k)无法有效处理图形摘要推荐中多个候选图表的模糊性,因此需要开发新的评估方法(如CAR@k)以更精细地分析模型行为。
常用场景
经典使用场景
SciGA-145k数据集在学术研究中主要用于支持图形摘要(Graphical Abstracts, GAs)的设计与推荐。该数据集通过提供大量科学论文及其关联的图形摘要,为研究人员提供了一个丰富的资源库,用于开发和评估自动化图形摘要生成和推荐系统。数据集的应用场景包括但不限于图形摘要的自动生成、图形摘要的推荐系统设计以及图形摘要的质量评估。
解决学术问题
SciGA-145k数据集解决了学术研究中图形摘要设计的几个关键问题。首先,它填补了大规模图形摘要数据集的空白,为研究人员提供了丰富的实验材料。其次,通过定义Intra-GA和Inter-GA推荐任务,数据集支持了图形摘要的自动选择和推荐研究。此外,提出的CAR@k指标为评估推荐系统的性能提供了新的视角,特别是在处理多候选图形摘要时。这些贡献共同推动了科学视觉交流领域的研究进展。
衍生相关工作
SciGA-145k数据集的推出催生了一系列相关研究工作,特别是在图形摘要自动生成和推荐系统领域。基于该数据集,研究人员开发了多种模型和方法,如基于对比学习的图形摘要推荐系统、结合文本和视觉特征的图形摘要生成模型等。这些工作不仅扩展了数据集的应用范围,也为科学视觉交流领域的技术进步提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成



