glossAPI/archetai
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/archetai
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从雅典考古学会数字出版物档案中OCR提取的文本。该学会成立于1837年,是希腊最古老的学术团体之一,主要进行和发表考古研究。其出版物涵盖挖掘报告、碑铭学、艺术史、古迹保护以及相关的历史和文献学研究,时间跨度从19世纪中期至今。数据集中的每条记录对应一个PDF卷、专著或五个出版系列中的一个问题。数据集包含814条记录,结构为扁平表格数据集,具有三个字符串类型的列。每条记录由其`pdf_url`唯一标识。`collection`列包含五个分类标签之一,与源档案的五个子目录一一对应。数据集的语言主要为希腊语,包含少量外语项目(主要是英语、德语和法语的摘要或完整卷)。由于源文档是扫描的PDF,OCR输出存在一定的噪声,特别是较旧的卷结合了多调和单调希腊语、连字和19世纪的印刷惯例。
This dataset contains text extracted via OCR from the digital publication archive of the Archaeological Society at Athens. Founded in 1837, it is one of the oldest academic institutions in Greece, dedicated to conducting and publishing archaeological research. Its publications cover excavation reports, epigraphy, art history, monument preservation, as well as related historical and philological studies, spanning from the mid-19th century to the present. Each record in the dataset corresponds to a PDF volume, monograph, or an issue of one of the five publication series. The dataset comprises 814 records, structured as a flat tabular dataset with three string-type columns. Each record is uniquely identified by its `pdf_url` field. The `collection` column holds one of five categorical labels, which have a one-to-one correspondence with the five subdirectories of the source archive. The primary language of the dataset is Greek, with a small number of foreign-language entries, mainly abstracts or full volumes in English, German, and French. As the source documents are scanned PDFs, the OCR outputs carry a certain amount of noise, especially for older volumes that combine polytonic and monotonic Greek, ligatures, and 19th-century printing conventions.
提供机构:
glossAPI
搜集汇总
数据集介绍

构建方式
Archetai数据集源自希腊雅典考古学会(Η εν Αθήναις Αρχαιολογική Εταιρεία)的数字出版物档案,收录了自19世纪中期至今的考古学文献。该数据集以扁平表格结构组织,包含814条记录,每条记录对应一个PDF卷册、专著或期刊。数据通过光学字符识别(OCR)技术从扫描版PDF中提取文本,并保留原始段落分隔符。表格包含三个字符串列:`collection`标识所属出版系列(如ΒΑΕ、ΑΕ等),`content`存储完整OCR文本,`pdf_url`提供源PDF的直接链接。数据集采用CC BY 4.0许可协议,允许广泛使用和衍生。
特点
该数据集以希腊语为主,包含少量外语(英语、德语、法语)摘要或全文,覆盖考古学、历史学、碑铭学、艺术史和古迹保护等学科。其显著特点是忠实呈现OCR原始输出,未进行激进后处理,从而保留复现性和灵活性,供用户按需过滤或重新OCR。数据文本长度差异极大,最短仅34字符(几乎为空提取),最长超过200万字符,中位数约329K字符,反映了不同年代PDF的数字化质量差异。此外,数据集包含超过1.07亿词片(WordPiece)标记,总容量达265.71 MB,适合大规模文本分析。
使用方法
用户可通过HuggingFace平台直接加载该数据集,使用`datasets`库进行访问。数据集适用于文本生成、掩码填充和特征提取等自然语言处理任务。由于OCR噪声普遍存在,尤其是早期卷册混合了多调正字法、连字和19世纪印刷惯例,建议下游用户根据任务需求自行设计文本清理或重新OCR流程。研究者可通过`pdf_url`字段追溯源文件,结合`collection`字段按系列筛选数据,或对`content`进行分词、建模,如使用预训练希腊语BERT模型(如`nlpaueb/bert-base-greek-uncased-v1`)进行下游任务微调。
背景与挑战
背景概述
Archetai数据集由雅典考古学会(Αρχαιολογική Εταιρεία)于2023年创建,旨在将希腊考古学领域自1837年以来积累的珍贵学术文献转化为机器可读的文本资源。该机构作为希腊最古老且最具影响力的考古研究机构,其出版物涵盖发掘报告、金石铭文、艺术史及古迹保护等多学科内容,对东地中海考古学研究具有里程碑意义。数据集由812个PDF卷册的OCR文本构成,首次系统性地将这批跨越近两个世纪的希腊文开放获取文献以结构化形式呈现,为古典学研究者提供了前所未有的数字分析基础。其发布不仅填补了考古学领域低资源语言的空白,更推动了数字人文与自然语言处理技术在历史文献研究中的交叉应用。
当前挑战
该数据集面临的核心挑战在于多维度数据质量问题:首先,源文档为1837年至今的扫描件,老旧卷册中混合使用多调正字法、连字及19世纪印刷体,导致OCR识别准确率显著下降,如最短记录仅34字符,几乎为空白。其次,构建过程中需在忠实保留原始OCR输出与人工修正间权衡,以维持可复现性,但可能引入后处理偏差。此外,不同系列(如《希腊考古杂志》与《博物馆年刊》)在版式、字体和语言变体上差异显著,统一处理策略难以兼顾,且希腊文本身作为低资源语言,现有预训练模型对其历史语言特征的适应能力不足,进一步加剧了文本清洗与下游任务适配的复杂性。
常用场景
经典使用场景
Archetai数据集的核心应用在于为古希腊考古学文献的数字化研究提供高质量的语料资源。该数据集收录了雅典考古学会自1837年至今发布的814卷出版物,涵盖发掘报告、铭文研究、艺术史及古物保护等领域的逾1.07亿词元的OCR文本。研究者可将其用于基于古希腊语的预训练语言模型微调、考古学领域专用词嵌入的生成,以及历史文献的语义标注任务,尤其适合处理古希腊文献中常见的带调符号、连字及19世纪印刷体等复杂文本特征。
实际应用
在实际应用中,Archetai数据集可直接支撑数字人文领域的智能文献检索系统构建,例如通过语义搜索快速定位特定遗址的发掘报告。它还被用于开发考古学知识图谱,自动抽取铭文、年代、器物类型等实体关系。此外,文化遗产机构可利用其训练OCR后处理模块,提升19世纪古希腊文扫描件的识别准确率。出版机构亦可借助该数据集实现历史期刊的全文索引与多语言摘要生成,降低人工编目成本。
衍生相关工作
该数据集已催生多项标志性工作:首先,基于其文本的希腊语考古学预训练模型(如ArcheoBERT)被广泛用于命名实体识别与碑文补全任务;其次,研究者利用其多系列结构提出了跨语域对比学习方法,揭示学术公告与学术会议纪要的语言风格差异;最后,面向OCR噪声的鲁棒微调框架(如Noise-Augmented Greek LM)在该数据上验证了性能提升。这些衍工作共同推动了数字考古学从文本数字化向语义智能化的发展转型。
以上内容由遇见数据集搜集并总结生成



