America Tract Society corpus

github2022-01-04 更新2024-05-31 收录

下载链接：

https://github.com/lmullen/ats-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含1800年至1900年间美国传道会出版物的纯文本版本，用于测试文档相似性和文本重用算法。美国传道会经常以相同标题重新出版小册子，并出版包含多个小册子的卷，因此有许多文本重用案例可供检测。

This corpus comprises plain text versions of publications from the American Missionary Society between 1800 and 1900, utilized for testing document similarity and text reuse algorithms. The American Missionary Society frequently republished pamphlets under the same titles and issued volumes containing multiple pamphlets, thereby providing numerous instances of text reuse for detection.

创建时间：

2015-09-10

原始信息汇总

数据集概述

数据集名称

America Tract Society corpus

数据集内容

包含1800年至1900年间美国宗派协会的出版物文本。
文本存储于corpus目录中。
manifest.csv文件包含数据集中的文件名及其相关元数据。

数据集目的

用于测试文档相似性和文本重用算法的性能。
由于ATS经常以相同标题重新发布小册子，并出版包含多个小册子的卷，因此存在许多文本重用的实例。

数据集版权和许可

所有文本均属于公共领域，来源于Internet Archive。
代码由Lincoln Mullen于2015年根据MIT许可发布。

数据集下载

可通过以下链接下载：ats_corpus.zip

数据集重现

可通过GitHub上的代码重现数据集，但文本本身因大小限制未存储于GitHub仓库中。

搜集汇总

数据集介绍

构建方式

America Tract Society corpus的构建基于1800年至1900年间美国传教协会（American Tract Society, ATS）的出版物，这些文本来源于互联网档案馆（Internet Archive）的公共领域资源。该数据集的创建旨在测试文档相似性和文本重用算法，特别关注ATS频繁以相同标题重新出版的小册子以及包含多个小册子的合集。通过从互联网档案馆提取并整理这些历史文献，数据集以纯文本形式存储，并附带包含文件名和相关元数据的`manifest.csv`文件。

特点

该数据集的特点在于其丰富的历史文献资源，涵盖了19世纪美国传教协会的广泛出版物。这些文本不仅具有历史研究价值，还为文本重用检测提供了大量实例。由于ATS多次以相同标题重新出版小册子，数据集内存在大量重复或高度相似的文本片段，为研究文档相似性和文本重用算法提供了理想的实验材料。此外，数据集以纯文本形式存储，便于直接用于自然语言处理任务。

使用方法

使用America Tract Society corpus时，用户可通过下载提供的压缩包获取所有文本文件及元数据。文本文件存储在`corpus`目录中，而`manifest.csv`文件则提供了文件名与相关元数据的映射关系。用户可利用这些数据进行文档相似性分析、文本重用检测或历史文献研究。此外，数据集的重现可通过GitHub上的代码实现，尽管原始文本文件因体积过大未直接包含在代码库中。所有文本均为公共领域资源，用户可自由使用和分发。

背景与挑战

背景概述

America Tract Society语料库是一个包含1800年至1900年间美国传单协会（American Tract Society, ATS）出版物的纯文本数据集。该语料库由林肯·穆伦（Lincoln Mullen）于2015年创建，旨在为文档相似性和文本重用算法的测试提供数据支持。ATS在其出版物中频繁地以相同标题重新发布传单，并出版了包含多个传单的合集，因此该语料库中存在大量文本重用的实例。这些文本不仅为算法研究提供了丰富的实验材料，同时也具有重要的历史研究价值。

当前挑战

该数据集的主要挑战在于如何有效检测和量化文本重用现象。由于ATS出版物中存在大量重复或高度相似的文本，如何设计高效的算法来识别这些重复内容是一个关键问题。此外，构建该数据集时面临的挑战包括从互联网档案馆（Internet Archive）中获取并整理大量历史文本，确保数据的完整性和准确性。由于文本规模庞大，数据存储和处理的复杂性也增加了构建过程的难度。这些挑战不仅考验了数据处理技术，也为文本相似性研究提供了新的研究方向。

常用场景

经典使用场景

America Tract Society corpus 数据集主要用于测试文档相似性和文本重用算法。由于美国传教协会（ATS）在1800年至1900年间频繁以相同标题重新发布传单，并出版了包含多个传单的合集，因此该数据集中存在大量文本重用的实例。这使得该数据集成为研究文本相似性和重复检测的理想选择。

解决学术问题

该数据集解决了文本相似性检测和文本重用分析中的关键问题。通过提供大量历史文本的重复实例，研究者可以开发和验证算法，以识别和量化文本之间的相似性。这不仅推动了自然语言处理领域的技术进步，还为历史文献的数字化分析提供了重要工具。

衍生相关工作

基于America Tract Society corpus 数据集，许多经典的研究工作得以展开。例如，研究者开发了多种文本相似性检测算法，并应用于历史文献的分析中。此外，该数据集还激发了关于19世纪美国宗教传播和文化交流的深入研究，推动了历史学和数字人文领域的交叉研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集