founders_online_corpus
收藏github2022-03-26 更新2024-05-31 收录
下载链接:
https://github.com/jaytimm/founders_online_corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个包含美国开国元勋通信和其他写作的语料库,通过Founders Online提供,包含约18万份写作/信件,分为不同的历史时期,并提供了详细的数据结构和使用说明。
A corpus comprising the correspondence and other writings of the Founding Fathers of the United States, provided through Founders Online, includes approximately 180,000 writings/letters, categorized into distinct historical periods, and offers detailed data structures and usage instructions.
创建时间:
2019-11-07
原始信息汇总
数据集概述
数据集名称
Founders Online Corpus
数据集内容
- 文档数量: 约180,000篇
- 文档类型: 美国开国元勋的信件和著作
- 数据提取方式: 通过API从Founders Online网站提取
- 数据格式: R-based
RDS文件
数据集结构
- 文件组成: 分为8个
RDS文件,每个文件对应一个历史时期 - 数据字段:
title: 文档标题permalink: 永久链接project: 项目名称authors: 作者recipients: 收件人date_from: 起始日期date_to: 结束日期api: API链接og_text: 原始文本text: 清理后的文本period: 历史时期分类
历史时期分类
| 序号 | 时期 | 起始年份 | 结束年份 |
|---|---|---|---|
| 1 | Colonial | 1706 | 1775-04-18 |
| 2 | Revolutionary War | 1775-04-19 | 1783-09-03 |
| 3 | Confederation Period | 1783-09-04 | 1789-04-29 |
| 4 | Washington Presidency | 1789-04-30 | 1797-03-03 |
| 5 | Adams Presidency | 1797-03-04 | 1801-03-03 |
| 6 | Jefferson Presidency | 1801-03-04 | 1809-03-03 |
| 7 | Madison Presidency | 1809-03-04 | 1817-03-03 |
| 8 | post-Madison Presidency | 1817 | 1837-01-01 |
数据集规模
- 文档总数: 约181,477篇
- 总字数: 约66,174,691字
数据集用途
- 用于历史研究,特别是美国建国时期的研究
- 提供原始文本和清理后的文本,便于文本分析和历史文献研究
数据集注意事项
- 数据集中的
text字段是清理后的文本,其他字段直接从Founders Online网站提取,可能包含原始数据源的异常情况。
搜集汇总
数据集介绍

构建方式
Founders Online Corpus数据集的构建基于美国国家档案馆的Founders Online资源,该资源收录了约18万份美国建国者的著作和信件。通过Founders Online提供的API,数据集作者提取了所有文档及其元数据,并将其整理为基于R语言的RDS文件格式。这些文件包含了文档的标题、作者、收件人、日期等元数据,以及经过处理的文档文本内容。数据集按照历史时期划分为八个类别,便于用户按时间维度进行分析。
特点
该数据集的特点在于其丰富的历史文献内容和精细的元数据标注。数据集不仅包含了原始文档的文本内容,还提供了经过清洗的文本版本,去除了多余的空白和换行符。此外,数据集按历史时期划分,涵盖了从殖民地时期到后麦迪逊总统时期的多个关键历史阶段。每个文档都标注了作者、收件人、日期等详细信息,便于用户进行多维度的历史文献分析。数据集的规模庞大,包含约18万份文档和6600万字的文本内容,为研究美国建国历史提供了宝贵的资源。
使用方法
使用Founders Online Corpus数据集时,用户可以通过R语言加载和处理RDS文件。数据集提供了多个RDS文件,用户可以通过R脚本将这些文件合并为一个统一的数据框,便于后续分析。数据集中的文本内容可以直接用于自然语言处理任务,如文本挖掘、情感分析等。用户还可以根据元数据中的历史时期、作者、收件人等信息进行筛选和分析,探索不同历史阶段的文献特征。此外,数据集提供了简单的函数用于展示文档内容和元数据,便于用户快速浏览和验证数据。
背景与挑战
背景概述
Founders Online Corpus数据集由美国国家档案馆(National Archives)创建,旨在提供美国建国时期重要人物的约18万份书信和文献。该数据集通过API提取并整理为R语言格式的RDS文件,涵盖了从1706年至1837年间的多个历史时期,包括殖民时期、独立战争时期、联邦时期以及多位总统任期内的文献。这些文献不仅为研究美国建国初期的政治、社会和文化提供了宝贵的原始资料,还为历史学家、语言学家和社会科学家提供了丰富的研究素材。数据集的核心研究问题在于如何通过大规模文本分析揭示历史事件背后的复杂关系与动态变化。
当前挑战
该数据集在构建过程中面临的主要挑战包括文本的预处理和标准化。由于原始文献中存在大量的换行符、不规则空格以及历史性拼写差异,如何有效清理和统一文本格式成为一大难题。此外,文献的元数据提取与整合也面临挑战,尤其是在处理不同历史时期的日期格式和人物名称时,容易出现不一致性。在应用层面,如何从这些非结构化的文本数据中提取有意义的历史信息,并避免因文本重复或错误导致的偏差,也是研究者需要克服的关键问题。这些挑战不仅影响数据的质量,还可能对后续的分析结果产生深远影响。
常用场景
经典使用场景
Founders Online Corpus数据集广泛应用于历史学和文学研究领域,特别是在分析美国建国时期的历史文献和书信往来中。研究者通过该数据集可以深入探讨美国建国初期的政治思想、社会动态以及关键历史人物的个人观点和决策过程。数据集中的文本内容为学者提供了丰富的原始资料,使得历史事件的解读更加全面和深入。
解决学术问题
该数据集解决了历史研究中原始文献获取困难的问题,尤其是那些分散在不同档案馆或私人收藏中的书信和文件。通过整合和数字化这些文献,研究者可以更便捷地进行文本分析、时间线重建以及历史人物的网络关系研究。此外,数据集还为语言学和文本挖掘领域提供了宝贵的研究素材,推动了跨学科研究的发展。
衍生相关工作
基于Founders Online Corpus,许多经典的研究工作得以展开。例如,学者们利用该数据集进行了关于美国建国时期政治思想演变的研究,揭示了关键历史人物之间的思想交流与影响。此外,文本挖掘技术的应用使得研究者能够从大量书信中提取出关键主题和情感倾向,进一步推动了历史文献的定量分析。这些衍生工作不仅丰富了历史学的研究方法,也为其他学科提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成



