AIS_archival_titles
收藏Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/Rahvusarhiiv/AIS_archival_titles
下载链接
链接失效反馈官方服务:
资源简介:
爱沙尼亚国家档案馆档案描述数据集包含超过1090万条从爱沙尼亚国家档案馆的档案信息系统中提取的档案描述,涵盖了700多年的历史,是研究爱沙尼亚文化和历史的重要资源。数据集以多层次档案结构组织,包括文件、条目、系列等,主要档案来源有爱沙尼亚国家档案馆、爱沙尼亚历史档案馆等。
爱沙尼亚国家档案馆档案描述数据集包含超过1090万条从爱沙尼亚国家档案馆的档案信息系统中提取的档案描述,涵盖了700多年的历史,是研究爱沙尼亚文化和历史的重要资源。数据集以多层次档案结构组织,包括文件、条目、系列等,主要档案来源有爱沙尼亚国家档案馆、爱沙尼亚历史档案馆等。
创建时间:
2025-07-22
原始信息汇总
🏛️ AIS档案标题数据集概述
数据集描述
- 来源:爱沙尼亚国家档案馆(Rahvusarhiiv)
- 内容:包含10,986,604条档案描述,提取自apeEAD XML文件
- 覆盖范围:爱沙尼亚文化与历史遗产
📊 关键统计
- 总记录数:10,986,604条
- 语言分布:
- 爱沙尼亚语(64.2%)
- 俄语(11.5%)
- 德语(6.8%)
- 时间范围:1237年至今(700+年)
- 含日期记录:8,811,987条(80.2%)
🗂️ 数据结构
字段
- title:档案描述
- level:描述层级(文件、项目、系列等)
- date:日期或日期范围
- reference:AIS参考编号
层级分布
- 文件:10,214,040条(93.0%)
- 项目:520,391条(4.7%)
- 系列:112,205条(1.0%)
- 子系列:107,697条(1.0%)
- 全宗:18,618条(0.2%)
- 子全宗:13,490条(0.1%)
🗺️ 主要档案收藏
| 档案代码 | 记录数 | 英文描述 | 爱沙尼亚文描述 |
|---|---|---|---|
| ERA | 3,837,727 | National Archives of Estonia | Rahvusarhiiv |
| EAA | 3,057,822 | Estonian Historical Archives | Eesti ajalooarhiiv |
| LVMA | 1,334,750 | Lääne-Viru County Archives | Lääne-Viru maa-arhiiv |
| TLA | 726,040 | Tallinn City Archives | Tallinna Linnaarhiiv |
💻 使用示例
python from datasets import load_dataset dataset = load_dataset("Rahvusarhiiv/AIS_archival_titles")
🎯 应用场景
- 历史研究
- 数字人文
- 语言研究
- 信息检索
- 时间分析
- 档案科学研究
⚠️ 数据质量说明
- 包含多种文档类型
- 日期范围可能存在不准确
- 部分记录元数据不完整
🚫 限制
- 历史日期可能为近似值
- 不同档案收藏的覆盖范围不一
📖 引用
bibtex @dataset{estonian_archives_2025, title={National Archives of Estonia (AIS) Dataset}, author={Rahvusarhiiv}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/Rahvusarhiiv/AIS_archival_titles} }
📄 来源
爱沙尼亚国家档案馆(Rahvusarhiiv)提供的apeEAD XML文件
⚖️ 许可
需遵守爱沙尼亚国家档案馆的数据使用政策
搜集汇总
数据集介绍

构建方式
该数据集源自爱沙尼亚国家档案馆(Rahvusarhiiv)的档案信息系统(AIS),通过处理apeEAD XML文件构建而成。数据提取过程严格遵循档案描述标准,涵盖了从1237年至今长达700余年的历史记录。构建过程中保留了原始档案的层级结构(如全宗、系列、案卷等)和多语言特征(包括爱沙尼亚语、俄语和德语),确保了历史档案的完整性与真实性。
特点
作为爱沙尼亚文化遗产的重要载体,该数据集包含超过1090万条档案描述记录,具有显著的多语言性和历史纵深性。数据字段包含标题、层级、日期和参考编号等核心元数据,其中80.2%的记录带有明确日期标记。档案层级分布呈现典型金字塔结构,93%为案卷级描述,而全宗级仅占0.2%,反映了档案整理的实践特征。多语言内容占比分别为爱沙尼亚语64.2%、俄语11.5%和德语6.8%,为语言学研究提供了丰富素材。
使用方法
研究者可通过Hugging Face平台直接加载数据集,利用参考编号前缀(如ERA、EAA)筛选特定档案馆藏,或按层级字段进行档案级别过滤。该数据集特别适用于历史趋势分析、多语言文本挖掘和档案科学等研究领域。使用示例展示了如何通过Python代码实现按档案馆和层级筛选,为数字人文研究提供了标准化数据接口。需注意部分日期可能采用儒略历或存在估算情况,建议结合原始档案进行数据验证。
背景与挑战
背景概述
AIS_archival_titles数据集由爱沙尼亚国家档案馆(Rahvusarhiiv)构建,旨在数字化和开放其丰富的历史档案资源。该数据集收录了超过1090万条档案描述,时间跨度长达700余年,涵盖爱沙尼亚语、俄语和德语等多语言内容,为研究爱沙尼亚历史文化提供了重要的一手资料。其核心价值在于将分散的档案资源系统化,支持历史学、数字人文和信息检索等跨学科研究。数据来源于爱沙尼亚档案信息系统(AIS),采用apeEAD XML格式标准化处理,体现了档案数字化领域的前沿实践。
当前挑战
该数据集面临的主要挑战包括多语言文本处理的复杂性,尤其是历史文献中古爱沙尼亚语、俄语和德语混合的情况;时间标注的准确性难题,涉及儒略历与公历的转换以及不完整日期推断;档案层级结构的标准化表示,需协调不同时期编目规范的差异;数据稀疏性问题,部分档案元数据缺失或描述简略。构建过程中需克服原始档案数字化程度不均、异构数据整合以及敏感信息脱敏等技术难点,同时平衡档案保密性与学术可及性。
常用场景
经典使用场景
在历史文献数字化研究领域,AIS_archival_titles数据集为学者提供了爱沙尼亚国家档案馆超过10.9万条档案描述的标准化访问途径。该数据集最经典的应用场景体现在对多层次档案结构的系统性分析中,研究人员可通过文件、项目、系列等层级字段,重构700余年历史档案的组织逻辑。其多语言特性尤其适合进行波罗的海地区德语、俄语与爱沙尼亚语文献的对比研究。
实际应用
在实际应用层面,该数据集已集成至爱沙尼亚国家档案馆的智能检索系统,通过机器学习模型实现了档案描述的自动分类与跨语言检索。文化遗产机构利用其日期标注特征开发了可视化时间轴,公众可直观探索历史事件的关联性。教育领域则将其转化为数字教学资源,学生可通过结构化档案学习地方史研究方法。
衍生相关工作
基于该数据集衍生的经典研究包括塔林大学开发的跨世纪多语言档案分析框架,以及赫尔辛基大学构建的波罗的海地区历史事件知识图谱。在技术层面,德国马普研究所利用其层级结构训练了档案实体识别模型,而爱沙尼亚语言研究所则从中提取出19世纪德语-爱沙尼亚语双语对照语料,推动了历史语言学的发展。
以上内容由遇见数据集搜集并总结生成



