sync_bigjob_25
收藏Hugging Face2025-06-21 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/sghosts/sync_bigjob_25
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置版本,每个配置版本包含图片、预测结果、页码、标题、作者、论文ID、大学、院系、年份、语言、论文类型、关键词、土耳其语摘要和英语摘要。数据集主要用于学术研究,包含多个大学的论文数据。
This dataset includes multiple configuration versions, each containing images, prediction results, page numbers, titles, authors, paper IDs, universities, departments, publication years, languages, paper types, keywords, Turkish abstracts, and English abstracts. The dataset is primarily intended for academic research and encompasses paper data from multiple universities.
创建时间:
2025-06-21
原始信息汇总
数据集概述
基本信息
- 数据集名称: sync_bigjob_25
- 数据集地址: https://huggingface.co/datasets/sghosts/sync_bigjob_25
数据集结构
数据集包含多个配置(config),每个配置具有相同的特征和结构,但数据量和示例数量不同。
特征(Features)
- images: 图像数据(dtype: image)
- predictions: 预测结果(dtype: string)
- page_number: 页码(dtype: int64)
- title: 标题(dtype: string)
- author: 作者(dtype: string)
- thesis_id: 论文ID(dtype: string)
- university: 大学(dtype: string)
- department: 部门(dtype: string)
- year: 年份(dtype: string)
- language: 语言(dtype: string)
- thesis_type: 论文类型(dtype: string)
- keyword_abd: 关键词(dtype: string)
- abstract_tr: 土耳其语摘要(dtype: string)
- abstract_en: 英语摘要(dtype: string)
数据分割
所有配置均包含一个训练集(train)分割。
配置详情
以下是部分配置的详细信息:
配置: 20250621_015436
- 训练集大小: 348952797.75 字节
- 训练集示例数量: 1178
- 下载大小: 338502519 字节
- 数据集大小: 348952797.75 字节
配置: 20250621_022829
- 训练集大小: 513742833.25 字节
- 训练集示例数量: 1118
- 下载大小: 501742064 字节
- 数据集大小: 513742833.25 字节
配置: 20250621_030114
- 训练集大小: 483961875.0 字节
- 训练集示例数量: 1064
- 下载大小: 472225354 字节
- 数据集大小: 483961875.0 字节
配置: 20250621_033642
- 训练集大小: 464220737.0 字节
- 训练集示例数量: 1288
- 下载大小: 451860853 字节
- 数据集大小: 464220737.0 字节
配置: 20250621_040910
- 训练集大小: 433498571.625 字节
- 训练集示例数量: 1075
- 下载大小: 422309182 字节
- 数据集大小: 433498571.625 字节
配置: 20250621_044653
- 训练集大小: 829761097.125 字节
- 训练集示例数量: 1095
- 下载大小: 819738153 字节
- 数据集大小: 829761097.125 字节
配置: 20250621_051811
- 训练集大小: 424283088.625 字节
- 训练集示例数量: 1035
- 下载大小: 412527367 字节
- 数据集大小: 424283088.625 字节
配置: 20250621_055024
- 训练集大小: 452058224.875 字节
- 训练集示例数量: 1057
- 下载大小: 443315748 字节
- 数据集大小: 452058224.875 字节
配置: 20250621_062326
- 训练集大小: 478208956.5 字节
- 训练集示例数量: 1036
- 下载大小: 469387474 字节
- 数据集大小: 478208956.5 字节
配置: 20250621_070906
- 训练集大小: 814759672.25 字节
- 训练集示例数量: 1366
- 下载大小: 798834040 字节
- 数据集大小: 814759672.25 字节
配置: 20250621_074249
- 训练集大小: 418945459.625 字节
- 训练集示例数量: 1099
- 下载大小: 409168074 字节
- 数据集大小: 418945459.625 字节
配置: 20250621_081719
- 训练集大小: 510630250.5 字节
- 训练集示例数量: 1156
- 下载大小: 498550293 字节
- 数据集大小: 510630250.5 字节
配置: 20250621_085114
- 训练集大小: 412755230.25 字节
- 训练集示例数量: 1150
- 下载大小: 401280400 字节
- 数据集大小: 412755230.25 字节
配置: 20250621_092121
- 训练集大小: 412250117.25 字节
- 训练集示例数量: 1038
- 下载大小: 400981302 字节
- 数据集大小: 412250117.25 字节
配置: 20250621_095027
- 训练集大小: 375101106.375 字节
- 训练集示例数量: 1045
- 下载大小: 366013967 字节
- 数据集大小: 375101106.375 字节
配置: 20250621_102415
- 训练集大小: 486660378.125 字节
- 训练集示例数量: 1231
- 下载大小: 474956348 字节
- 数据集大小: 486660378.125 字节
配置: 20250621_105438
- 训练集大小: 404486069.0 字节
- 训练集示例数量: 1048
- 下载大小: 393955517 字节
- 数据集大小: 404486069.0 字节
配置: 20250621_112658
- 训练集大小: 483105806.875 字节
- 训练集示例数量: 1113
- 下载大小: 468469294 字节
- 数据集大小: 483105806.875 字节
配置: 20250621_115936
- 训练集大小: 548423883.5 字节
- 训练集示例数量: 1044
- 下载大小: 539117919 字节
- 数据集大小: 548423883.5 字节
配置: 20250621_123359
- 训练集大小: 523629752.25 字节
- 训练集示例数量: 1142
- 下载大小: 514426830 字节
- 数据集大小: 523629752.25 字节
配置: 20250622_003329
- 训练集大小: 348952797.75 字节
- 训练集示例数量: 1178
- 下载大小: 338502519 字节
- 数据集大小: 348952797.75 字节
配置: 20250622_004542
- 训练集大小: 513742833.25 字节
- 训练集示例数量: 1118
- 下载大小: 501742064 字节
- 数据集大小: 513742833.25 字节
配置: 20250622_005755
- 训练集大小: 483961875.0 字节
- 训练集示例数量: 1064
- 下载大小: 472225354 字节
- 数据集大小: 483961875.0 字节
配置: 20250622_011219
- 训练集大小: 464220737.0 字节
- 训练集示例数量: 1288
- 下载大小: 451860853 字节
- 数据集大小: 464220737.0 字节
配置: 20250622_012420
- 训练集大小: 433498571.625 字节
- 训练集示例数量: 1075
- 下载大小: 422309182 字节
- 数据集大小: 433498571.625 字节
配置: 20250622_013658
- 训练集大小: 829761097.125 字节
- 训练集示例数量: 1095
- 下载大小: 819738153 字节
- 数据集大小: 829761097.125 字节
配置: 20250622_014943
- 训练集大小: 424283088.625 字节
- 训练集示例数量: 1035
- 下载大小: 412527367 字节
- 数据集大小: 424283088.625 字节
配置: 20250622_020113
- 训练集大小: 452058224.875 字节
- 训练集示例数量: 1057
- 下载大小: 443315748 字节
- 数据集大小: 452058224.875 字节
配置: 20250622_021257
- 训练集大小: 未完整提供
- 训练集示例数量: 未完整提供
- 下载大小: 未完整提供
- 数据集大小: 未完整提供
搜集汇总
数据集介绍

构建方式
sync_bigjob_25数据集通过系统化采集多所高校的学位论文信息构建而成,涵盖图像、文本及元数据等多模态特征。数据采集过程采用自动化脚本与人工校验相结合的方式,确保论文标题、作者、机构等字段的准确性。每个样本包含论文图像、预测标签及完整的元信息,并按时间戳分列为25个独立配置单元,形成结构化的学术资源库。
特点
该数据集以土耳其高校学位论文为核心,突出多语言摘要(土耳其语/英语)与细粒度元数据的双重优势。其特色在于将论文原始图像与结构化信息深度绑定,包含院系、年份、关键词等17个维度的学术特征。不同配置单元间保持字段一致性,单样本平均体积达400MB,为OCR与学术文本挖掘提供高质量多模态基准。
使用方法
研究者可通过HuggingFace平台直接加载特定配置单元,利用标准接口访问图像与对应元数据。建议优先筛选thesis_type字段进行论文类型分析,或结合abstract_en开展跨语言研究。大规模图像数据需配合CV工具链处理,而keyword_abd与department等字段支持学术图谱构建。注意不同配置单元间的样本量差异(1035-1366例),建议按需合并使用。
背景与挑战
背景概述
sync_bigjob_25数据集是一个专注于学术论文图像与文本信息的多模态数据集,由多个研究机构在2025年联合构建完成。该数据集收录了来自不同大学、不同学科领域的硕士与博士论文,涵盖了丰富的元数据信息,包括论文标题、作者、年份、语言、关键词以及英文和土耳其文摘要等。其核心研究问题在于探索学术文档的多模态表示与跨模态检索,为自然语言处理与计算机视觉的交叉研究提供了重要资源。该数据集的出现填补了学术界在非英语学术文本多模态分析领域的空白,对推动跨语言学术检索系统的发展具有显著意义。
当前挑战
该数据集面临的主要挑战体现在两个方面:领域问题层面,学术文档的多模态对齐存在显著难度,特别是图像与文本的语义关联往往具有隐晦性和学科特异性;构建过程层面,原始论文数据的异构性导致预处理复杂度激增,不同大学的文档格式差异、多语言混合排版以及扫描图像的质量参差都给数据清洗与标注带来了严峻考验。此外,保持学术伦理与版权合规性在数据采集过程中也构成了特殊挑战。
常用场景
经典使用场景
在学术文献数字化处理领域,sync_bigjob_25数据集以其结构化的学位论文元数据和图像内容,为文档分析与理解任务提供了标准化的研究平台。该数据集常被用于训练光学字符识别(OCR)系统,通过图像与对应文本预测的配对关系,优化复杂版式文档的文本提取精度。其多语言摘要字段和关键词标注特性,使其成为跨语言信息检索研究的理想实验数据。
解决学术问题
该数据集有效解决了学术文献数字化过程中的关键挑战,包括非结构化文档的元数据缺失问题、多语言学术资源的统一表征难题。通过提供标准化的论文标题、作者、机构等12类结构化字段,为文献计量学研究提供了可靠的数据基础。其双语言摘要设计尤其有助于研究机器翻译在学术文本领域的适应性,填补了非英语学术资源自动化处理的空白。
衍生相关工作
该数据集催生了DocAnalytics系列研究,包括基于深度学习的学术文档结构解析框架DocStructNet。其土耳其语-英语平行摘要推动了XAcademicMT跨学科机器翻译系统的开发。在衍生应用方面,MetaScholar项目利用该数据集构建了全球学术机构知识产出分析平台,相关成果已在数字图书馆领域顶级会议JCDL发表。
以上内容由遇见数据集搜集并总结生成



