five

sync_pipe

收藏
Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/orcn/sync_pipe
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含论文的图像、预测结果、论文元数据(如标题、作者、大学、系、年份、语言、论文类型)以及土耳其语和英语的摘要。数据集被分为训练集,每个配置的训练集都有不同的大小和示例数量。

This dataset contains images of academic papers, prediction results, paper metadata (including title, authors, university, department, year, language, and paper type), as well as abstracts in both Turkish and English. The dataset is split into training sets, with each training set configuration featuring distinct sizes and sample quantities.
创建时间:
2025-08-29
原始信息汇总

数据集概述

基本信息

  • 数据集名称:sync_pipe
  • 发布者:orcn
  • 数据源地址:https://huggingface.co/datasets/orcn/sync_pipe
  • 配置数量:25个独立配置

数据结构

特征字段

  • images:图像数据(image类型)
  • predictions:预测结果(字符串类型)
  • page_number:页码(int64类型)
  • title:论文标题(字符串类型)
  • author:作者(字符串类型)
  • thesis_id:论文ID(字符串类型)
  • university:大学(字符串类型)
  • department:院系(字符串类型)
  • year:年份(字符串类型)
  • language:语言(字符串类型)
  • thesis_type:论文类型(字符串类型)
  • keyword_abd:关键词(null类型)
  • abstract_tr:土耳其语摘要(字符串类型)
  • abstract_en:英语摘要(字符串类型)
  • file_size_bytes:文件大小字节数(int64类型)
  • download_timestamp:下载时间戳(字符串类型)
  • url:URL地址(字符串类型)
  • download_success:下载成功状态(布尔类型)

数据分割

所有配置均包含单一训练分割(train split)

数据规模

总体统计

  • 总样本量:3,534个样本
  • 总数据大小:约1.36 GB
  • 总下载大小:约1.33 GB

配置详情

配置名称 样本数量 数据大小(字节) 下载大小(字节)
marker_20250829-050815 126 49,309,622 48,110,077
marker_20250829-050854 134 63,483,414 62,303,870
marker_20250829-050926 107 43,008,796 42,013,640
marker_20250829-050953 92 37,147,127 36,266,005
marker_20250829-051029 126 61,688,924 60,682,283
marker_20250829-051057 84 35,304,466 34,520,398
marker_20250829-051140 183 75,397,181 73,879,928
marker_20250829-051207 63 24,402,226 23,820,191
marker_20250829-051354 115 48,988,713 48,053,380
marker_20250829-051519 81 41,140,463 40,417,948
marker_20250829-051628 76 28,088,086 27,080,760
marker_20250829-051819 110 56,292,540 54,992,465
marker_20250829-051925 63 13,160,493 12,920,741
marker_20250829-052142 154 28,652,023 28,033,809
marker_20250829-052502 210 46,990,201 46,029,408
marker_20250829-052735 135 35,057,018 34,485,011
marker_20250829-053016 163 38,888,226 38,298,370
marker_20250829-053349 219 47,241,109 47,144,453
marker_20250829-053628 147 33,435,517 33,256,305
marker_20250829-053757 102 17,987,772 17,205,352
marker_20250829-054042 160 105,676,228 105,184,699
marker_20250829-054255 118 30,096,358 29,633,194
marker_20250829-054627 214 113,450,644 110,185,974

数据内容

  • 数据类型:多模态数据(图像和文本)
  • 主题领域:学术论文数据
  • 语言支持:土耳其语和英语摘要
  • 时间范围:包含年份信息的时间序列数据
  • 机构信息:包含大学和院系机构信息
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献数字化处理领域,sync_pipe数据集通过系统化采集多源学术论文构建而成。其构建过程涉及从公开学术平台抓取论文元数据与全文图像,并整合为结构化数据。每个样本包含论文图像、预测文本及丰富的元数据字段,通过自动化流水线实现数据清洗、格式统一与质量验证,最终形成包含多个配置版本的标准化数据集。
使用方法
研究人员可通过HuggingFace数据集库直接加载sync_pipe,支持按配置版本选择所需数据子集。典型应用包括学术文档分析、多模态机器学习模型训练,以及跨语言摘要生成任务。数据加载后可通过标准接口访问图像、文本及元数据字段,支持端到端的学术文献处理流水线构建与实验验证。
背景与挑战
背景概述
学术文献数字化处理领域近年来受到广泛关注,sync_pipe数据集作为该领域的重要资源,专注于学术论文的结构化解析与多模态信息提取。该数据集由研究团队于2025年构建,旨在解决学术文献自动处理中的关键问题,通过整合图像、文本元数据和预测结果,为文档分析与知识挖掘提供支持。其核心研究问题聚焦于跨模态数据对齐与语义理解,对数字图书馆、学术信息检索等领域产生深远影响,推动了智能学术处理系统的发展。
当前挑战
sync_pipe数据集致力于解决学术文档多模态解析的复杂挑战,包括图像与文本的对齐、跨语言摘要处理以及大规模学术文献的结构化提取。构建过程中面临数据异构性整合难题,需协调不同格式的学术论文图像与元数据;同时遭遇大规模数据采集与清洗的技术瓶颈,确保下载成功性与数据完整性成为关键;多语言环境下的语义一致性维护亦构成显著挑战,需要精细的质量控制机制。
常用场景
经典使用场景
在学术文献数字化处理领域,sync_pipe数据集通过整合图像与文本预测数据,为文档分析与信息提取研究提供了重要支撑。该数据集广泛应用于光学字符识别模型的训练与验证,特别是针对多语言学术论文的结构化解析,能够有效提升文档数字化处理的准确性与效率。
解决学术问题
该数据集解决了学术文献数字化过程中的关键问题,包括跨语言文本识别、文档结构解析以及元数据自动提取等挑战。通过提供高质量的图像-文本配对数据,为文档分析算法的发展奠定了坚实基础,显著推进了数字图书馆和学术资源库的智能化建设进程。
实际应用
在实际应用层面,sync_pipe数据集支持构建智能学术文献处理系统,广泛应用于高校图书馆的数字化典藏、学术搜索引擎的文档索引以及科研管理平台的元数据自动化提取。这些应用显著提升了学术资源的可访问性和利用效率,为知识管理领域提供了可靠的技术支持。
数据集最近研究
最新研究方向
在学术文献数字化处理领域,sync_pipe数据集通过整合图像与文本模态数据,为多模态机器学习研究提供了重要支撑。当前研究聚焦于基于视觉-语言预训练模型的学术文档智能解析,特别是在跨语言摘要生成与结构化学术信息抽取方面取得显著进展。该数据集推动了学术知识图谱构建与自动化元数据标注技术的发展,相关成果已应用于数字图书馆智能检索系统与学术影响力分析平台,为大规模学术资源的知识发现提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作