HathiTrust Datasets

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/hathitrust/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该项目维护提供给研究人员和HathiTrust研究中心的完整文本数据集。数据集包括各种卷的全文，每个卷由前缀和数字唯一标识。主要数据集称为`ht_text`，是可用卷的全文集合的超集。还有多个子集，对应于卷的特定权利，如公共领域世界等。

This project maintains a comprehensive text dataset provided to researchers and the HathiTrust Research Center. The dataset encompasses the full text of various volumes, each uniquely identified by a prefix and a number. The primary dataset, referred to as `ht_text`, serves as a superset of the full text collections of available volumes. Additionally, there are several subsets corresponding to specific rights of the volumes, such as the public domain worldwide.

创建时间：

2017-01-26

原始信息汇总

HathiTrust Datasets Builder 数据集概述

数据集设计

卷（Volumes）

数据集包含允许被包含和分发的卷全文。
每个卷通过前缀和数字唯一标识，例如：pre.01234567891011 或 exp.11223344556677。

超集（Superset - ht_text）

ht_text 是所有可供研究的全文语料库，作为所有可用卷的超集。
此集合仅由 HathiTrust Research Center 直接使用。

子集（Subsets）

根据卷的特定权利属性，存在多个子集。
子集列表包括：
- ht_text_pd
- ht_text_pd_open_access
- ht_text_pd_world
- ht_text_pd_world_open_access

内容和符号链接

数据存储在 ht_text 超集的压缩文件中。
子集是 ht_text 超集部分内容的镜像，最终目录是相应 ht_text 目录的符号链接。

操作流程

队列检查

开始新运行前，必须确保作业队列为空，即每个作业都已成功完成。
失败的作业会被重新排队，以防止对同一卷进行多次更改的竞争条件。

获取变更

数据集需要整合的 HathiTrust 卷变更包括：
- 权利（Rights）：版权判定或访问权利的更新。
- 内容（Content）：OCR 文本的更新。

过滤变更

变更列表被过滤到各自的队列中，每个子集和内容变更都有对应的队列。

调度作业

为队列中的每个卷安排作业，以将变更应用到文件系统。

使用

数据集通过私有 ArgoCD 控制仓库部署，创建处理数据集作业的工作者和生成数据集完整清单、获取元数据、更新数据集作业队列以及编译和处理工作者生成的日志的定时作业。

搜集汇总

数据集介绍

构建方式

HathiTrust数据集的构建基于对HathiTrust研究数据中心提供的全文数据的维护。该数据集包含了具有特定权限的全文卷，每个卷通过前缀和编号唯一标识，如pre.01234567891011或exp.11223344556677。数据集的核心是名为`ht_text`的超集，包含了所有可用于研究的全文卷。此外，根据卷的权限属性，数据集被细分为多个子集，如`ht_text_pd_world`，这些子集通过符号链接与超集中的相应部分关联，确保数据的统一性和可访问性。

使用方法

HathiTrust数据集的使用通过私有ArgoCD控制仓库进行部署，生成处理数据集任务的工作者和一系列定时任务，用于生成数据集的完整清单、获取元数据、更新数据集任务队列以及编译和处理工作者生成的日志。用户可以通过访问这些子集来获取特定权限的全文卷数据，进行进一步的研究和分析。数据集的更新通过队列检查、获取变更、过滤变更和调度任务等步骤实现，确保数据的实时性和准确性。

背景与挑战

背景概述

HathiTrust Datasets是由HathiTrust Research Center维护的一个全面的全文数据集，旨在为研究人员提供丰富的数字图书馆资源。该数据集包含了大量图书的完整文本，并根据版权和访问权限进行了细致的分类。自创建以来，HathiTrust Datasets已成为数字人文和图书馆科学领域的重要资源，支持了众多关于文本分析、版权研究和文化传承的研究项目。其核心研究问题集中在如何有效管理和分发受版权保护的数字资源，以及如何通过技术手段提升文本数据的可用性和可访问性。

当前挑战

HathiTrust Datasets在构建和维护过程中面临多项挑战。首先，数据集的构建需要处理大量的版权和访问权限问题，确保每本书的文本都能在符合法律和伦理的前提下被分发和使用。其次，数据集的更新和维护涉及复杂的队列管理和作业调度，以避免多重更改同一卷的竞态条件。此外，数据集的存储和分发需要高效的文件系统操作，特别是原子文件移动的测试和实现，以确保数据完整性和一致性。

常用场景

经典使用场景

HathiTrust Datasets 数据集的经典使用场景主要集中在数字图书馆和文本挖掘领域。研究者可以利用该数据集进行大规模文本分析，如自然语言处理、文本分类和信息检索等任务。通过访问包含完整文本的卷集，研究者能够深入探索公共领域作品的语言特征、历史演变和文化影响，从而推动数字人文和计算语言学的发展。

解决学术问题

HathiTrust Datasets 数据集解决了数字图书馆和文本挖掘领域中常见的学术研究问题，如大规模文本数据的获取与处理、版权限制下的数据利用以及跨学科研究的数据支持。该数据集通过提供公共领域和开放访问的文本资源，极大地促进了学术界对历史文献、文学作品和科学文本的深入分析，推动了相关领域的研究进展。

实际应用

在实际应用中，HathiTrust Datasets 数据集被广泛应用于数字图书馆建设、文化遗产保护和教育资源开发等领域。例如，图书馆和研究机构可以利用该数据集构建数字馆藏，提供在线阅读和研究服务；教育机构则可以基于该数据集开发课程资源，提升教学效果。此外，该数据集还支持文化机构进行历史文献的数字化保存和传播，促进文化传承与创新。

数据集最近研究