HathiTrust Datasets
收藏github2024-05-08 更新2024-05-31 收录
下载链接:
https://github.com/hathitrust/datasets
下载链接
链接失效反馈官方服务:
资源简介:
该项目维护提供给研究人员和HathiTrust研究中心的完整文本数据集。数据集包括各种卷的全文,每个卷由前缀和数字唯一标识。主要数据集称为`ht_text`,是可用卷的全文集合的超集。还有多个子集,对应于卷的特定权利,如公共领域世界等。
This project maintains a comprehensive text dataset provided to researchers and the HathiTrust Research Center. The dataset encompasses the full text of various volumes, each uniquely identified by a prefix and a number. The primary dataset, referred to as `ht_text`, serves as a superset of the full text collections of available volumes. Additionally, there are several subsets corresponding to specific rights of the volumes, such as the public domain worldwide.
创建时间:
2017-01-26
原始信息汇总
HathiTrust Datasets Builder 数据集概述
数据集设计
卷(Volumes)
- 数据集包含允许被包含和分发的卷全文。
- 每个卷通过前缀和数字唯一标识,例如:pre.01234567891011 或 exp.11223344556677。
超集(Superset - ht_text)
ht_text是所有可供研究的全文语料库,作为所有可用卷的超集。- 此集合仅由 HathiTrust Research Center 直接使用。
子集(Subsets)
- 根据卷的特定权利属性,存在多个子集。
- 子集列表包括:
- ht_text_pd
- ht_text_pd_open_access
- ht_text_pd_world
- ht_text_pd_world_open_access
内容和符号链接
- 数据存储在
ht_text超集的压缩文件中。 - 子集是
ht_text超集部分内容的镜像,最终目录是相应ht_text目录的符号链接。
操作流程
队列检查
- 开始新运行前,必须确保作业队列为空,即每个作业都已成功完成。
- 失败的作业会被重新排队,以防止对同一卷进行多次更改的竞争条件。
获取变更
- 数据集需要整合的 HathiTrust 卷变更包括:
- 权利(Rights):版权判定或访问权利的更新。
- 内容(Content):OCR 文本的更新。
过滤变更
- 变更列表被过滤到各自的队列中,每个子集和内容变更都有对应的队列。
调度作业
- 为队列中的每个卷安排作业,以将变更应用到文件系统。
使用
- 数据集通过私有 ArgoCD 控制仓库部署,创建处理数据集作业的工作者和生成数据集完整清单、获取元数据、更新数据集作业队列以及编译和处理工作者生成的日志的定时作业。
搜集汇总
数据集介绍

构建方式
HathiTrust数据集的构建基于对HathiTrust研究数据中心提供的全文数据的维护。该数据集包含了具有特定权限的全文卷,每个卷通过前缀和编号唯一标识,如pre.01234567891011或exp.11223344556677。数据集的核心是名为`ht_text`的超集,包含了所有可用于研究的全文卷。此外,根据卷的权限属性,数据集被细分为多个子集,如`ht_text_pd_world`,这些子集通过符号链接与超集中的相应部分关联,确保数据的统一性和可访问性。
使用方法
HathiTrust数据集的使用通过私有ArgoCD控制仓库进行部署,生成处理数据集任务的工作者和一系列定时任务,用于生成数据集的完整清单、获取元数据、更新数据集任务队列以及编译和处理工作者生成的日志。用户可以通过访问这些子集来获取特定权限的全文卷数据,进行进一步的研究和分析。数据集的更新通过队列检查、获取变更、过滤变更和调度任务等步骤实现,确保数据的实时性和准确性。
背景与挑战
背景概述
HathiTrust Datasets是由HathiTrust Research Center维护的一个全面的全文数据集,旨在为研究人员提供丰富的数字图书馆资源。该数据集包含了大量图书的完整文本,并根据版权和访问权限进行了细致的分类。自创建以来,HathiTrust Datasets已成为数字人文和图书馆科学领域的重要资源,支持了众多关于文本分析、版权研究和文化传承的研究项目。其核心研究问题集中在如何有效管理和分发受版权保护的数字资源,以及如何通过技术手段提升文本数据的可用性和可访问性。
当前挑战
HathiTrust Datasets在构建和维护过程中面临多项挑战。首先,数据集的构建需要处理大量的版权和访问权限问题,确保每本书的文本都能在符合法律和伦理的前提下被分发和使用。其次,数据集的更新和维护涉及复杂的队列管理和作业调度,以避免多重更改同一卷的竞态条件。此外,数据集的存储和分发需要高效的文件系统操作,特别是原子文件移动的测试和实现,以确保数据完整性和一致性。
常用场景
经典使用场景
HathiTrust Datasets 数据集的经典使用场景主要集中在数字图书馆和文本挖掘领域。研究者可以利用该数据集进行大规模文本分析,如自然语言处理、文本分类和信息检索等任务。通过访问包含完整文本的卷集,研究者能够深入探索公共领域作品的语言特征、历史演变和文化影响,从而推动数字人文和计算语言学的发展。
解决学术问题
HathiTrust Datasets 数据集解决了数字图书馆和文本挖掘领域中常见的学术研究问题,如大规模文本数据的获取与处理、版权限制下的数据利用以及跨学科研究的数据支持。该数据集通过提供公共领域和开放访问的文本资源,极大地促进了学术界对历史文献、文学作品和科学文本的深入分析,推动了相关领域的研究进展。
实际应用
在实际应用中,HathiTrust Datasets 数据集被广泛应用于数字图书馆建设、文化遗产保护和教育资源开发等领域。例如,图书馆和研究机构可以利用该数据集构建数字馆藏,提供在线阅读和研究服务;教育机构则可以基于该数据集开发课程资源,提升教学效果。此外,该数据集还支持文化机构进行历史文献的数字化保存和传播,促进文化传承与创新。
数据集最近研究
最新研究方向
在数字图书馆和文化遗产保护领域,HathiTrust Datasets的研究正聚焦于大规模文本数据的处理与分析。该数据集不仅包含了丰富的公共领域文本资源,还通过细粒度的权限管理,提供了多种子集以满足不同研究需求。当前,研究者们正致力于开发高效的文本挖掘算法,以从海量数据中提取有价值的信息,特别是在历史文献的数字化与语义分析方面。此外,随着开放数据运动的推进,HathiTrust Datasets在促进跨学科合作与知识共享方面展现出巨大潜力,尤其是在人文学科与计算机科学的交叉领域。
以上内容由遇见数据集搜集并总结生成



