natcomSS

Hugging Face2025-12-14 更新2025-12-15 收录

下载链接：

https://huggingface.co/datasets/ZexiK/natcomSS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Nature Communications文章中抓取的内容，全面提取了以下信息：主图和标题及引用、表格及其完整HTML和数据、补充图及其引用上下文、补充表及其引用上下文、补充文件（PDF、Excel文件）、具有层次结构的文章部分（h2=部分，h3=子部分）以及链接到部分的图/表引用上下文。数据集结构包括图像和表格的压缩文件以及每篇文章的JSON元数据文件。元数据包括文章ID、URL、标题、图集、表集、补充图集、补充表集、补充文件列表和部分集。数据集统计信息包括总文章数、抓取日期以及各类内容的数量汇总。

创建时间：

2025-12-12

原始信息汇总

Nature Communications Articles Dataset - natcomm_2512_001

数据集描述

该数据集包含从《自然-通讯》期刊爬取的文章，并进行了全面的内容提取，包括：

主图及其标题和引用信息
表格及其完整HTML和数据
补充图及其引用上下文
补充表及其引用上下文
补充文件（PDF、Excel文件）
具有层级结构的文章章节（h2=主章节，h3=子章节）
链接到章节的图/表引用上下文

数据集结构

文件

images_tables_natcomm_2512_001.zip：包含所有文章图片和表格
- files/[article_id]/images/：主图图片
- files/[article_id]/tables/：表格HTML文件
metadata_natcomm_2512_001.zip：包含每篇文章的JSON元数据
- metadata/[article_id].json：完整的元数据，包括：
  - article_id：文章标识符
  - url：原始文章URL
  - title：文章标题
  - image_set：包含标题和引用的主图字典
  - table_set：包含标题和数据的表格字典
  - supplementary_image_set：包含引用的补充图字典
  - supplementary_table_set：包含引用的补充表字典
  - supplementary_files：补充文件链接列表
  - section_set：具有层级结构的文章章节字典

统计信息

文章总数：1685
爬取日期：2025-12-12

内容摘要

主图：8788（平均每篇5.2个）
表格：689（平均每篇0.4个）
补充图：13260（平均每篇7.9个）
补充表：2795（平均每篇1.7个）
补充文件：14588（平均每篇8.7个）
章节：35630（平均每篇21.1个）

特征

章节层级

每个章节包含：

level：2（h2主章节）或3（h3子章节）
type：“section”或“subsection”
title：章节标题
content：完整的章节文本

排除的元数据章节

过滤掉了以下管理性章节：

致谢、作者信息、贡献声明
同行评审、伦理声明、权利与许可
相似内容推荐

引用追踪

每个图/表都有一个contexts数组，包含：

section：引用所在的章节标题
text：引用周围±100个字符的上下文
full_content：完整的章节内容

使用方式

python import json import zipfile

加载文章元数据

with open(metadata_natcomm_2512_001/metadata/s41467-025-65722-y.json, r) as f: article = json.load(f)

访问具有层级的章节

for sec_id, sec_info in article[section_set].items(): if sec_info[level] == 2: print(f"Section: {sec_info[title]}") else: print(f" Subsection: {sec_info[title]}")

访问带有引用的图

for fig_id, fig_info in article[image_set].items(): print(f"{fig_id}: {fig_info[caption]}") print(f" Cited in: {[c[section] for c in fig_info[contexts]]}")

版本说明

natcomm_2512_001（2025年12月）：

修复了章节提取功能，以排除推荐章节
增加了章节层级追踪（h2/h3级别）
改进了元数据章节过滤
增强了补充材料的引用追踪

许可

该数据集衍生自《自然-通讯》文章。请尊重原始文章的许可协议并适当引用。

创建信息

批次名称：natcomm_2512_001
爬取工具：Nature Communications Comprehensive Scraper
日期：2025-12-12
仓库地址：https://huggingface.co/datasets/ZexiK/natcomSS

搜集汇总

数据集介绍

构建方式

在学术出版领域，Nature Communications作为跨学科开放获取期刊，其文章蕴含丰富的科学数据与可视化成果。该数据集通过系统化的网络爬取技术，从期刊官网提取了1685篇论文的完整内容，构建于2025年12月12日。数据采集过程不仅涵盖了文章的主体文本与章节层级结构，还深入提取了主要图表、补充材料及相应的引用上下文，确保了科学内容的完整性与关联性。

使用方法

研究人员可通过加载JSON格式的元数据文件，便捷地访问文章的结构化内容。利用数据集提供的代码示例，能够遍历文章的章节层级，或检索图表及其在特定章节中的引用语境。这种设计支持对科学论述逻辑的可视化分析、图表语义理解以及多元素关联研究，适用于自然语言处理、科学知识图谱构建等前沿领域。

背景与挑战

背景概述

随着科学文献的数字化与开放获取运动的蓬勃发展，如何高效地从海量学术论文中提取结构化知识，已成为科学信息学与自然语言处理领域的关键议题。Nature Communications Articles Dataset（natcomSS）应运而生，该数据集由ZexiK团队于2025年12月12日创建，通过自动化爬虫技术系统性地采集了《自然·通讯》期刊中的1685篇论文。其核心研究问题聚焦于对多模态科学内容——包括主图、表格、补充材料及章节层次结构——进行深度解析与关联标注，旨在为学术文本挖掘、科学知识图谱构建以及多模态机器学习模型提供高质量、细粒度的训练与评估资源。这一数据集的构建，显著推动了跨模态科学文献理解研究的发展，为自动化文献综述、图表语义检索等应用奠定了坚实基础。

当前挑战

该数据集致力于解决科学文献多模态内容理解这一复杂领域问题，其核心挑战在于如何精准建模图表与正文之间的语义关联，并实现跨模态信息的对齐与融合。具体而言，构建过程中面临多重技术难题：首先，需要设计鲁棒的网页爬取与解析流程，以应对期刊网站动态加载与多样化的HTML结构，确保图像、表格及补充材料的完整捕获；其次，必须开发高效的上下文提取算法，在排除致谢、作者信息等非核心内容的同时，精确追踪图表在章节中的引用位置，并保留其周围的语义语境；此外，处理大量异构数据（如图像、HTML表格、PDF文件）并维护其与元数据的一致性，也对数据清洗、存储与标注流程提出了严峻考验。

常用场景

经典使用场景

在跨学科科学文献分析领域，natcomSS数据集以其结构化的学术内容为自然语言处理与信息检索研究提供了经典范例。该数据集整合了Nature Communications期刊文章的图文数据，包括主图、表格、补充材料及层级化章节结构，特别适用于训练多模态机器学习模型。研究者可借助其丰富的引用上下文与章节关联，开发自动化文献摘要生成、科学图表理解或知识图谱构建系统，从而深化对复杂科学论述的语义解析能力。

解决学术问题

该数据集有效应对了科学文献挖掘中的若干核心挑战，如多模态数据融合与细粒度知识抽取问题。通过提供图文并茂的完整学术记录，它支持研究者探索科学论述中视觉元素与文本内容的互动关系，解决了传统文本数据集在跨模态对齐方面的不足。其层级化章节结构与引用追踪机制，为学术信息检索、科学假设发现以及领域知识演化分析提供了可靠的数据基础，推动了计算文献学与科学计量学的发展。

实际应用

在实际应用层面，natcomSS数据集可服务于学术出版智能化与科研辅助工具开发。出版机构可利用其训练自动审稿系统，识别论文中图表与论述的逻辑一致性；教育科技公司则可基于其构建交互式科学阅读平台，帮助学生理解复杂研究中的图文关联。此外，该数据集还能支撑科研管理系统的开发，例如通过分析补充材料引用模式，辅助评估研究成果的完整性与透明度，提升科学交流效率。

数据集最近研究