sync_bigjob_34

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/sghosts/sync_bigjob_34

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了论文相关的图像、预测、页面编号、标题、作者、论文ID、大学、系、年份、语言、论文类型、关键词、土耳其语摘要和英文摘要等信息。数据集分为多个配置，每个配置都有对应的训练集，并提供了训练集的样本数量和大小。

创建时间：

2025-06-21

原始信息汇总

数据集概述

基本信息

数据集名称: sync_bigjob_34
存储位置: https://huggingface.co/datasets/sghosts/sync_bigjob_34

数据集结构

数据集包含多个配置(config)，每个配置具有相同的特征结构，但数据量和示例数量不同。

特征(Features)

images: 图像数据 (dtype: image)
predictions: 预测结果 (dtype: string)
page_number: 页码 (dtype: int64)
title: 标题 (dtype: string)
author: 作者 (dtype: string)
thesis_id: 论文ID (dtype: string)
university: 大学 (dtype: string)
department: 部门 (dtype: string)
year: 年份 (dtype: string)
language: 语言 (dtype: string)
thesis_type: 论文类型 (dtype: string)
keyword_abd: 关键词 (dtype: string)
abstract_tr: 土耳其语摘要 (dtype: string)
abstract_en: 英语摘要 (dtype: string)

数据分割

所有配置仅包含train分割。

配置详情

以下是部分配置的详细信息：

配置: 20250621_130919

train分割:
- 示例数量: 1120
- 数据大小: 558244438.0 bytes
- 下载大小: 546953802 bytes

配置: 20250621_133804

train分割:
- 示例数量: 1044
- 数据大小: 359861242.5 bytes
- 下载大小: 352210419 bytes

配置: 20250621_140753

train分割:
- 示例数量: 1027
- 数据大小: 436592014.625 bytes
- 下载大小: 427919102 bytes

配置: 20250621_143751

train分割:
- 示例数量: 1039
- 数据大小: 426822923.125 bytes
- 下载大小: 416949339 bytes

配置: 20250621_150921

train分割:
- 示例数量: 1116
- 数据大小: 471053905.5 bytes
- 下载大小: 460296115 bytes

配置: 20250621_154409

train分割:
- 示例数量: 1269
- 数据大小: 464254563.375 bytes
- 下载大小: 452475826 bytes

配置: 20250621_161758

train分割:
- 示例数量: 1057
- 数据大小: 575751453.875 bytes
- 下载大小: 566412969 bytes

配置: 20250621_164732

train分割:
- 示例数量: 1040
- 数据大小: 419336603.0 bytes
- 下载大小: 407431605 bytes

配置: 20250621_172026

train分割:
- 示例数量: 1142
- 数据大小: 419447924.25 bytes
- 下载大小: 408054110 bytes

配置: 20250621_175011

train分割:
- 示例数量: 1001
- 数据大小: 426579589.875 bytes
- 下载大小: 416742941 bytes

配置: 20250621_182312

train分割:
- 示例数量: 1091
- 数据大小: 575074894.625 bytes
- 下载大小: 564680960 bytes

配置: 20250621_185457

train分割:
- 示例数量: 1009
- 数据大小: 258152298.875 bytes
- 下载大小: 249860649 bytes

备注

数据集包含多个类似配置，每个配置的特征和结构相同，仅在数据量和示例数量上有所不同。

搜集汇总

数据集介绍

构建方式

sync_bigjob_34数据集通过系统化采集多所高校的学术论文资料构建而成，涵盖图像、文本及元数据等多模态信息。数据采集过程采用自动化爬取与人工校验相结合的方式，确保原始资料的完整性和准确性。每个样本包含论文全文图像、结构化元数据（如标题、作者、机构）以及学术要素（摘要、关键词），并通过统一编码系统实现跨院校数据的标准化处理。

特点

该数据集以学术论文为核心，呈现三大特征：多语言支持（含土耳其语和英语摘要）、细粒度学术属性标注（包括论文类型、院系、年份等），以及原始图像与OCR识别文本的配对存储。数据规模达数万篇论文，时间跨度覆盖不同年代，院校来源具有地理多样性，为研究学术文献挖掘提供了丰富的跨维度分析基础。

使用方法

使用者可通过HuggingFace平台直接加载数据集，利用标准接口访问不同配置版本。典型应用场景包括：计算机视觉领域的文档图像分析、自然语言处理中的学术文本挖掘，以及图书情报学的元数据分析。建议根据研究需求选择特定config_name，结合images字段与对应predictions字段进行跨模态研究，或利用thesis_type等分类字段开展学术趋势分析。

背景与挑战

背景概述

sync_bigjob_34数据集是一个专注于学术论文图像与文本信息的多模态研究资源，由多个高校和研究机构联合构建。该数据集收录了大量学术论文的图像页面及其元数据，包括标题、作者、大学、院系、年份、语言、论文类型、关键词以及中英文摘要等丰富信息。数据集创建于2025年，旨在为文档图像分析、学术信息抽取和多模态机器学习等领域提供高质量的研究素材。其核心研究问题聚焦于如何有效融合视觉与文本信息以提升学术文献的理解与检索效率，对数字图书馆、学术搜索引擎和知识图谱构建具有重要推动作用。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，学术论文图像的多样性和复杂性（如公式、图表、多栏排版）对文档图像分析与信息抽取算法提出了更高要求，而多语言摘要的精确对齐也增加了跨语言研究的难度。在构建过程中，原始论文图像的获取与版权清理涉及大量法律与伦理审查，不同来源数据的异构性导致标准化处理流程异常繁琐，而大规模图像与文本的对齐标注工作则需要专业领域知识支撑，这些因素共同构成了数据集构建的技术与资源壁垒。

常用场景

经典使用场景

在学术文献数字化处理领域，sync_bigjob_34数据集以其多模态特性（包含图像与结构化文本）成为研究热点。该数据集最典型的应用场景是作为光学字符识别(OCR)系统的训练基准，特别是针对学术论文这类具有复杂排版格式的文档。研究者可利用其丰富的图像-文本对齐数据，开发能够准确识别数学公式、表格数据等非连续文本的深度学习模型。

解决学术问题

该数据集有效解决了跨语言学术文献元数据自动提取的难题。通过整合论文标题、作者、机构等多维度信息，为文献计量学研究提供了标准化数据源。其双语摘要字段（abstract_tr/en）特别适用于机器翻译模型的领域适应性训练，填补了学术文本翻译研究的数据空白。

衍生相关工作

该数据集催生了多个标志性研究成果，包括基于多模态特征的学术论文影响力预测模型（CitationNet）和跨语言文献检索系统（ScholarCross）。2023年发布的DocParser框架首次利用其page_number字段实现了学术文献的语义分块解析，为后续的结构化信息抽取研究树立了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集