America Tract Society corpus

github2017-05-12 更新2024-05-31 收录

下载链接：

https://github.com/strategist922/ats-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含1800年至1900年间美国传道会出版物的纯文本版本，用于测试文档相似性和文本重用算法。美国传道会经常在同一标题下重新发布小册子，并出版包含小册子集合的卷，因此有许多文本重用的例子可以检测。

This corpus comprises plain text versions of publications from the American Missionary Society between 1800 and 1900, utilized for testing document similarity and text reuse algorithms. The American Missionary Society frequently republished pamphlets under the same title and issued volumes containing collections of pamphlets, thereby providing numerous instances of text reuse for detection.

创建时间：

2017-05-12

原始信息汇总

数据集概述

数据集名称

America Tract Society corpus

数据集内容

包含1800年至1900年间美国Tract Society的出版物的纯文本版本。

数据集目的

用于测试文档相似性和文本重用算法的开发。

数据集特点

存在多个同名出版物。
包含多卷本的出版物集合。
文本重用现象较多。

数据集结构

文本文件位于corpus目录中。
manifest.csv文件包含数据集中的文件名及其相关元数据。

数据集下载

可通过以下链接下载：http://lincolnmullen.com/files/ats_corpus.zip

版权与许可

所有文本均属于公共领域，来源于Internet Archive。代码采用MIT许可，由Lincoln Mullen于2015年提供。

搜集汇总

数据集介绍

构建方式

America Tract Society corpus数据集的构建，旨在针对文档相似性和文本重用算法进行测试。该数据集搜集了美国 tract 社会于1800年至1900年间发布的出版物文本，通过从Internet Archive中搜集公开领域的文本，形成了丰富的文本重用案例，为研究者提供了检验算法有效性的坚实基础。

使用方法

用户可通过下载已提供的压缩文件来获取数据集，或通过GitHub上提供的代码库自行构建。数据集包含在`corpus`目录中，而`manifest.csv`文件则提供了文件名及相关元数据。所有文本均属于公共领域，用户可自由使用，不受版权限制。

背景与挑战

背景概述

America Tract Society corpus 数据集，汇集了美国传单协会在1800年至1900年间出版物的纯文本版本。该数据集的构建旨在检验文档相似性及文本重用算法的性能。由于该协会常以相同标题重印传单，并出版了包含多篇传单的卷本，故数据集中含有丰富的文本重用案例。这一时期的历史文献对于研究美国历史文化具有独特价值。该数据集由Lincoln Mullen于2015年创建，并在GitHub上共享，对于文献学和文本挖掘领域的研究者具有深远影响。

当前挑战

在构建America Tract Society corpus数据集过程中，研究者面临了如何准确识别并处理文本重用问题的挑战。此外，数据集在构建时还需要解决如何高效存储和索引大量文本数据的技术问题。在研究领域中，如何利用该数据集进行有效的文档相似性分析，以及如何从中挖掘出更深层次的文本特征和信息，也是当前研究者和使用者需要克服的重要挑战。

常用场景

经典使用场景

在文本相似性与文本重用算法的测试领域，America Tract Society corpus数据集提供了丰富的文本资源。该数据集包含了美国TRACT学会在1800年至1900年间出版的文献的纯文本版本，其中不乏重复出版和集合出版的文本实例，为算法验证提供了天然的测试环境。

解决学术问题

该数据集解决了文本处理领域中对文档相似度评估和文本重用检测的算法准确性的验证问题。通过提供大量存在文本重复利用的文献，有助于学者们评估和改进算法的性能，从而推动文本挖掘和自然语言处理技术的发展。

实际应用

在实际应用中，America Tract Society corpus数据集可用于历史文献研究，通过分析不同时期文献的用词和主题变化，有助于了解特定历史时期的社会文化背景。此外，该数据集对于图书馆数字化项目也具有重要价值，支持对历史文献资源的数字化整理和归档。

数据集最近研究