orcun_processed

Hugging Face2025-09-07 更新2025-09-08 收录

下载链接：

https://huggingface.co/datasets/sghosts/orcun_processed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含论文相关信息的多字段数据集，包括论文的图片、预测字符串、页码、标题、作者、论文ID、所属学校、院系、发表年份、语言、论文类型、关键词（可能为空）、中文摘要、英文摘要、文件大小、下载时间戳、URL、下载是否成功、使用的处理器ID和类型以及论文的文本内容。

This is a multi-field dataset containing comprehensive paper-related information. The included fields are: paper images, prediction strings, page numbers, paper titles, authors, paper IDs, affiliated universities, academic departments, publication years, languages, paper types, keywords (which may be empty), Chinese abstracts, English abstracts, file sizes, download timestamps, URLs, download success statuses, used processor IDs and types, as well as the full text content of the papers.

创建时间：

2025-09-07

原始信息汇总

数据集概述

基本信息

数据集名称：orcun_processed
存储位置：https://huggingface.co/datasets/sghosts/orcun_processed
默认拆分样本数量：1294
下载大小：492510544字节
数据集大小：503893348.25字节

数据特征

images：图像数据
predictions：字符串类型
page_number：整型
title：字符串类型
author：字符串类型
thesis_id：字符串类型
university：字符串类型
department：字符串类型
year：字符串类型
language：字符串类型
thesis_type：字符串类型
keyword_abd：空值类型
abstract_tr：字符串类型
abstract_en：字符串类型
file_size_bytes：整型
download_timestamp：字符串类型
url：字符串类型
download_success：布尔类型
processor：整型
processor_used：字符串类型
text：字符串类型

数据拆分

默认拆分：包含1294个样本，总大小503893348.25字节

搜集汇总

数据集介绍

构建方式

在学术文献数字化处理领域，orcun_processed数据集通过系统化采集土耳其多所大学的电子学位论文构建而成。其核心流程涵盖从原始PDF文档的图像提取、元数据标注到光学字符识别（OCR）文本转换，每篇论文均关联标题、作者、机构、出版年份及多语言摘要等结构化字段，并记录处理工具与时间戳以确保数据溯源性。

使用方法

研究者可借助该数据集开展学术文档分析与自然语言处理任务，例如通过图像-文本对训练OCR模型优化，或利用多语言摘要字段进行机器翻译研究。元数据字段支持学术趋势分析、机构研究画像构建，而文件溯源信息则为数据质量评估与预处理流程优化提供实证依据。

背景与挑战

背景概述

在数字图书馆与学术文献数字化进程不断深化的背景下，orcun_processed数据集应运而生，专注于土耳其高等教育机构学位论文的大规模结构化处理。该数据集由研究团队系统采集并加工，核心目标在于推动学术文本的自动化分析与知识抽取，为自然语言处理和信息检索领域提供高质量的多语言学术语料。其构建涵盖了图像、元数据及全文文本的多模态特征，显著促进了中东地区学术文献的数字化可及性与计算人文研究的发展。

当前挑战

数据集面临的核心挑战在于多语言学术文本的结构化解析与质量控制，特别是土耳其语和英语混合文本的准确分割与语义标注。构建过程中需克服原始文档格式异构性、图像质量波动及元数据缺失等问题，同时需确保大规模数据处理流程的可复现性与效率。此外，学术文本特有的术语密度和逻辑结构也对自动化处理算法提出了更高的鲁棒性要求。

常用场景

经典使用场景

在光学字符识别与学术文献数字化领域，orcun_processed数据集通过提供大量标注图像与文本对，为训练和评估OCR模型提供了标准化测试平台。其多语言学术论文的结构化数据支持跨语言文本识别研究，尤其在处理复杂版式与多语言混合场景中展现显著价值。

解决学术问题

该数据集有效解决了学术文献数字化过程中的文本提取精度问题，通过提供高质量的图像-文本对齐数据，支持端到端OCR模型的性能优化。其多语言摘要字段为跨语言信息检索研究提供语料基础，同时结构化元数据助力学术文献计量分析与知识图谱构建。

实际应用

实际应用中，该数据集支撑高校图书馆档案数字化系统开发，实现学术论文的自动索引与检索。出版机构利用其训练定制化OCR引擎处理历史文献数字化，教育科技公司则基于多语言文本数据开发学术资源推荐系统，显著提升知识服务效率。

数据集最近研究