DHQ数据集

github2023-12-16 更新2024-05-31 收录

下载链接：

https://github.com/ZoeLeBlanc/dhq_scraper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Digital Humanities Quarterly（DHQ）的最新文章及其相关元数据，通过多个脚本从DHQ网站和XML文件中提取、处理和整合数据，最终形成一个完整的数据集。

This dataset comprises the latest articles from Digital Humanities Quarterly (DHQ) along with their associated metadata. The data was extracted, processed, and integrated from the DHQ website and XML files through multiple scripts, culminating in a comprehensive dataset.

创建时间：

2023-12-16

原始信息汇总

数据集概述

本数据集由Digital Humanities Quarterly (DHQ)的最新文章及其相关元数据组成。数据集通过一系列脚本从DHQ网站和XML文件中收集、处理和整合数据。

数据集结构

脚本

dhq_repo_observer.py: 检查DHQ仓库是否有更新，如有更新则重新下载data/dhq-journal目录中的文章。需要GitHub API Tokens作为环境变量。
utils.py: 包含其他脚本使用的实用函数，特别是处理XML文件为结构化数据的函数。
dhq_website_scraper.py: 从DHQ网站抓取每篇文章的相关期刊元数据。
process_dhq_articles.py: 清理并合并来自XML文件和网站抓取的数据，形成单一数据集，并根据期刊推断缺失数据。

数据

data/dhq-journal: DHQ仓库的克隆目录。
dhq_issue_links.csv: 包含DHQ期刊各期链接的文件。
dhq_articles_links.csv: 包含DHQ各篇文章链接的文件。
initial_dhq_data.csv: 包含来自XML文件的数据。
processed_dhq_data.csv: 包含最终数据集的文件。

笔记本

DHQEDA.ipybn: 包含数据集的探索性数据分析的笔记本。

搜集汇总

数据集介绍

构建方式

DHQ数据集的构建过程主要依赖于自动化脚本与人工干预的结合。首先，通过`dhq_repo_observer.py`脚本定期检查DHQ期刊的更新情况，确保数据的时效性。随后，`dhq_website_scraper.py`脚本从DHQ官网抓取每篇文章的元数据，包括期刊期号和文章链接。这些数据与从XML文件中提取的结构化信息通过`process_dhq_articles.py`脚本进行整合与清洗，最终生成一个包含完整元数据的统一数据集。整个过程通过GitHub API和本地环境变量的配置实现自动化，确保了数据的高效获取与处理。

特点

DHQ数据集的特点在于其全面性与结构化程度。该数据集不仅包含了《数字人文季刊》（DHQ）的最新文章，还附带了详细的元数据，如文章标题、作者、期刊期号、发表日期等。这些元数据通过XML文件和网页抓取相结合的方式获取，确保了数据的完整性与准确性。此外，数据集还通过自动化脚本对缺失数据进行推断与补充，进一步提升了数据的可用性。数据集的结构化设计使其能够广泛应用于数字人文领域的研究与分析。

使用方法

DHQ数据集的使用方法灵活多样，适用于多种研究场景。用户可以通过`processed_dhq_data.csv`文件直接访问最终处理后的数据集，其中包含了所有文章的元数据与内容信息。对于需要进一步分析的用户，`DHQEDA.ipynb`笔记本提供了探索性数据分析的示例代码，帮助用户快速了解数据集的基本特征。此外，用户还可以根据需求调用`utils.py`中的工具函数，对XML文件进行自定义处理，以满足特定研究需求。数据集的设计旨在为数字人文领域的研究者提供一个高效、可靠的数据支持平台。

背景与挑战

背景概述

DHQ数据集是由《数字人文季刊》（Digital Humanities Quarterly, DHQ）的最新文章及其相关元数据构成的集合，旨在为数字人文领域的研究者提供丰富的文本资源。该数据集的创建源于数字人文领域对大规模、结构化文本数据的需求，以支持文本分析、主题建模、网络分析等多种研究方法。DHQ作为数字人文领域的重要期刊，其数据集不仅反映了该领域的研究热点，还为跨学科研究提供了宝贵的数据支持。该数据集的构建由相关研究人员通过GitHub平台进行维护和更新，确保了数据的时效性和完整性。

当前挑战

DHQ数据集在构建过程中面临多重挑战。首先，数字人文领域的文本数据通常具有复杂的结构和多样的格式，如何从XML文件中提取并结构化这些数据是一个技术难题。其次，数据集的更新依赖于对DHQ期刊的持续监控和抓取，这要求脚本能够高效地处理网页抓取和API调用，同时应对网站结构变化带来的兼容性问题。此外，数据清洗和缺失数据的推断也是构建过程中的关键挑战，确保数据的准确性和一致性需要复杂的算法支持。最后，如何将数据集应用于实际研究，尤其是在跨学科背景下，仍然是一个开放性问题，需要进一步探索和验证。

常用场景

经典使用场景

DHQ数据集广泛应用于数字人文领域的研究，特别是在文本挖掘、语义分析和知识图谱构建方面。研究者通过该数据集能够深入分析《数字人文季刊》（DHQ）中的文章内容，提取关键主题、作者合作网络以及学术趋势，为数字人文领域的理论构建和实证研究提供数据支持。

实际应用

在实际应用中，DHQ数据集被用于开发智能文献推荐系统、学术影响力分析工具以及文本可视化平台。例如，基于该数据集构建的推荐系统能够为学者提供个性化的文献推荐服务，而文本可视化工具则帮助研究者直观展示学术趋势和知识网络，为学术决策提供支持。

衍生相关工作

DHQ数据集衍生了许多经典研究工作，例如基于其构建的数字人文知识图谱、学术合作网络分析模型以及主题演化分析工具。这些工作不仅深化了对数字人文领域的理解，还为相关领域的研究者提供了可复用的方法和工具，进一步推动了数字人文研究的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集