Dutch Novels 1800-2000

github2022-02-03 更新2024-05-31 收录

下载链接：

https://github.com/KBNLresearch/DBNL-canonicity

下载链接

链接失效反馈

官方服务：

资源简介：

包含1800至2000年间荷兰小说的文本特征和元数据的数据集。

A dataset containing textual features and metadata of Dutch novels from the period 1800 to 2000.

创建时间：

2022-01-27

原始信息汇总

数据集概述

数据集名称

Investigating Canonicity with A corpus of Dutch novels 1800-2000

数据集目标

收集1800至2000年的荷兰小说语料库
通过远读方法研究经典性
发布包含文本特征和元数据的开放获取数据集
创建在线演示工具

数据集链接

荷兰小说1800-2000数据集

数据集贡献者

@andreasvc
@Veldhoen

搜集汇总

数据集介绍

构建方式

Dutch Novels 1800-2000数据集的构建始于2021年4月至10月的研究员驻留项目，旨在探讨荷兰小说的经典性。该数据集通过远距离阅读技术，收集了1800年至2000年间的荷兰小说文本特征和元数据。构建过程中，研究人员从多种来源获取数据，确保了数据的多样性和代表性。数据集最终以开放访问的形式发布，为后续研究提供了坚实的基础。

特点

Dutch Novels 1800-2000数据集的特点在于其时间跨度长达两个世纪，涵盖了荷兰文学的丰富历史。数据集不仅包含文本特征，还附带了详细的元数据，如作者、出版年份等，为研究者提供了多维度的分析视角。此外，数据集还通过在线演示工具展示了其应用潜力，使得用户能够直观地探索和分析数据。

使用方法

使用Dutch Novels 1800-2000数据集时，研究者可以通过访问其开放数据集页面获取文本特征和元数据。数据集适用于远距离阅读、文本分析和机器学习等多种研究方法。在线演示工具则为用户提供了一个直观的界面，用于探索数据集的潜在应用。对于希望复现研究结果的用户，建议与项目贡献者联系以获取更多详细信息。

背景与挑战

背景概述

Dutch Novels 1800-2000数据集由荷兰国家图书馆的研究人员在2021年4月至10月期间创建，旨在探讨文学经典性的决定因素。该数据集包含1800年至2000年间荷兰小说的文本特征和元数据，通过远距离阅读技术分析文学作品的经典性。主要研究人员包括Andreas van Cranenburgh和Sara Veldhoen，他们的研究成果不仅为文学研究提供了新的视角，还通过开放数据集和在线演示工具推动了文学分析的数字化进程。

当前挑战

该数据集的核心挑战在于如何通过文本特征客观地衡量文学作品的经典性，这一问题涉及主观评价与客观数据之间的复杂关系。在构建过程中，研究人员面临数据来源多样化的挑战，需要整合来自不同渠道的文本和元数据，确保数据的完整性和一致性。此外，远距离阅读技术的应用要求对大规模文本数据进行高效处理和分析，这对计算资源和算法设计提出了较高要求。

常用场景

经典使用场景

Dutch Novels 1800-2000数据集在文学研究领域中被广泛用于探讨文学经典性的形成机制。通过分析1800年至2000年间荷兰小说的文本特征和元数据，研究者能够运用远距离阅读技术，揭示文本特征与经典性之间的潜在关联。这一数据集为文学研究者提供了一个独特的视角，帮助他们理解哪些文本特征可能影响作品的经典地位。

衍生相关工作

基于Dutch Novels 1800-2000数据集，许多相关研究得以展开。例如，研究者利用该数据集开发了机器学习模型，用于预测荷兰小说的经典性。此外，该数据集还催生了一系列关于文学经典性与文本特征关系的学术论文，进一步推动了文学研究中的量化分析方法的普及。这些衍生工作不仅丰富了文学研究的内容，还为其他语种的文学研究提供了可借鉴的范例。

数据集最近研究