Press-and-Plot

Name: Press-and-Plot
Creator: Center for Humanities Computing Aarhus
Published: 2025-10-27 20:31:24
License: 暂无描述

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/chcaa/Press-and-Plot

下载链接

链接失效反馈

官方服务：

资源简介：

Press&Plot是一个包含29个丹麦报纸故事（1816-1832年）的精选集合，包括单篇和多篇小说。这些故事经过人工检查、清洗和分类，供研究使用。数据集包含短篇小说、传记、游记和爱情故事等多个类别。

提供机构：

Center for Humanities Computing Aarhus

创建时间：

2025-10-27

原始信息汇总

Press&Plot 数据集概述

数据集基本信息

数据集名称: Press&Plot: Curated Danish 19th-Century Stories & Serial Fiction (v1.0)
简短描述: 包含29个丹麦报纸故事（1816-1832年）的精选集合，包括单部分和多部分小说，经过人工检查、清理和分类，供研究使用
语言: 丹麦语（dan），来自18世纪和19世纪
许可证: 公共领域（CC0）
版本: v1.0

数据规模

故事数量: 29个（单部分和多部分叙事）
文章数量: 50篇（按连载ID分组）
类别数量: 6个
训练集大小: 50个样本，585,442字节

数据特征结构

特征名称	数据类型	描述
feuilleton_id	string	每期唯一标识符
feuilleton_id_series	string	系列/故事ID
text	string	每期完整文本
label	string	任务分配的标签，区分报纸中的小说和非小说
subcategory	string	4个子类别之一
clean	bool	是否已进行手动清理
wordcount/part	int64	部分的字数统计
wordcount/whole	int64	完整系列的字数统计
date	string	日期
author	string	作者
original_language	string	原文语言（如果已知）
cliffhanger	float64	部分是否包含悬念
feuilleton_name	string	原始标题
complete	string	部分是否缺失

数据类别

主要类别: 短篇小说（普通小说）、传记、游记、爱情故事
子类别: 6个具体分类

数据来源与处理

策划方: 奥胡斯大学人文计算中心GoldenMatrix
处理方: 奥尔堡大学ENO
上传者: Pascale Feldkamp
选择方法: 从小说分类器的高置信度预测中选择
处理流程: 人工检查、跨期分组、拼写和格式清理

引用信息

论文待发表
引用信息待定

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，Press-and-Plot数据集通过系统化流程构建而成。其素材源自丹麦19世纪报纸中经虚构作品分类器高置信度预测的文本，随后进行人工核查与跨期次归类，确保叙事连贯性。数据清理阶段着重修正历史文献中常见的拼写变异与格式不一致问题，最终形成包含29个独立故事的标准化语料库。

特点

该数据集凸显出多维度标注的学术价值，每个文本单元均配备层级化分类标签与元数据。除基础的小说/非小说分类外，还细化至传记、游记、爱情故事等子类别，并创新性地引入悬念标记指标。通过连载标识符与完整度字段，研究者可追溯多部作品的分期发表脉络，为叙事结构演化研究提供实证基础。

使用方法

利用现代自然语言处理工具链，研究者可通过HuggingFace平台直接加载数据集至Python环境。支持转换为pandas DataFrame格式后，可结合词频统计与时间序列分析，探索19世纪连载小说的叙事模式演变。其结构化字段设计特别适合计算文学研究，如通过悬念指标量化叙事张力，或基于作者字段进行风格计量学分析。

背景与挑战

背景概述

数字人文研究领域日益重视对历史文献的系统性挖掘与分析，Press-and-Plot数据集由奥胡斯大学人文计算中心和奥尔堡大学研究团队于2024年联合构建，聚焦19世纪丹麦报纸中的连载小说与短篇叙事作品。该数据集通过人工标注与分类，系统收录了1816至1832年间29部叙事作品的50个文本单元，涵盖传记、游记、爱情故事等六类文学体裁，为研究北欧浪漫主义时期大众文学传播与报刊出版生态提供了结构化数据支撑。

当前挑战

在历史文献数字化进程中，该数据集需解决19世纪丹麦语拼写变异与印刷错误的文本清洗难题，同时面临连载叙事中章节断裂与跨期追踪的完整性校验挑战。构建过程中需通过多轮人工校验解决原始报刊扫描件的字符识别误差，并建立系列作品关联模型以还原碎片化出版形态下的叙事逻辑，这对数字人文领域的多模态文献重构方法提出了更高要求。

常用场景

经典使用场景

在数字人文领域，Press-and-Plot数据集为研究19世纪丹麦报纸连载小说提供了珍贵素材。其经典使用场景聚焦于文学风格演变分析，学者们通过文本特征如词频统计、连载结构及悬念设置模式，深入探索这一时期叙事艺术的流变规律。

衍生相关工作

基于该数据集衍生的经典研究包括跨媒介叙事比较分析，学者通过对比报纸连载与单行本小说的文本特征，揭示了早期大众传媒的文学改编规律。后续工作还拓展至多语言虚构文学谱系建构，为北欧文学研究开辟了新维度。

数据集最近研究