danish-book-ads-raw-data

Name: danish-book-ads-raw-data
Creator: Center for Humanities Computing Aarhus
Published: 2026-05-19 18:36:39
License: 暂无描述

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/chcaa/danish-book-ads-raw-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个训练集，包含138,561个样本，总数据量约为932 MB。每个样本包括文本内容、日期、唯一标识符、报纸来源、一个浮点数列表、预测类别、字符数、预测书籍公告、书籍公告和评论等字段。数据集的背景、具体来源、构建目的及适用任务未在README中说明。

This dataset is a training set containing 138,561 samples with a total data volume of approximately 932 MB. Each sample includes fields such as text content, date, unique identifier, newspaper source, a list of floating-point numbers, predicted category, character count, predicted book announcement, book announcement, and comments. The background, specific source, construction purpose, and applicable tasks of the dataset are not described in the README.

提供机构：

Center for Humanities Computing Aarhus

创建时间：

2026-05-19

原始信息汇总

根据你提供的数据集详情页面信息，以下是该数据集的概述：

数据集概述：danish-book-ads-raw-data

基本信息

数据集地址：https://huggingface.co/datasets/chcaa/danish-book-ads-raw-data
数据集大小：下载大小为 885,666,536 字节（约 845 MB），数据集大小为 932,169,199 字节（约 889 MB）
数据集分割：仅包含一个训练集（train），共 138,561 个样本

数据特征

该数据集包含以下字段：

字段名	数据类型	描述
text	string	文本内容
date	string	日期
id	string	唯一标识符
newspaper	string	报纸来源
pooled	list of float64	聚合特征（浮点数列表）
predicted_category	string	预测的分类
characters	float64	字符数
predicted_book_announce	string	预测的图书公告
book_announce	string	实际的图书公告
comment	string	备注信息

数据用途

该数据集包含丹麦语的书本广告原始数据，可用于文本分类、图书广告识别、历史报纸内容分析等自然语言处理任务。数据已包含预测类别和图书公告标签，适合进行监督学习或验证模型性能。

数据来源与配置

配置名称：default
数据文件路径：data/train-*（训练集数据分布在该路径下）

搜集汇总

数据集介绍

构建方式

该数据集源自丹麦历史报纸的数字化档案，通过系统化的数据采集与标注流程构建而成。原始数据从多家报纸的广告版面中提取，经过光学字符识别（OCR）技术转化为文本格式。随后，研究团队对每条记录进行多维度标注，包括出版日期、报纸来源、文本长度、广告类别预测及是否为图书广告的二元判定。数据集的构建还引入了基于文本特征的聚类分析，生成'pooled'字段以表征广告间的语义相似性，最终形成包含138,561条样本的高质量语料库。

特点

该数据集以丹麦语图书广告为核心，具有显著的领域针对性与结构多样性。每条记录均包含原始广告文本、元数据（日期、报纸名称）及多重预测标签，为历史语言学与广告文化研究提供了精细化的分析维度。其中'predicted_category'与'predicted_book_announce'字段展示了机器预测结果，而'book_announce'与'comment'字段则可能包含人工校正信息，这种混合标注模式平衡了数据规模与标注精度。此外，数据集的文本长度分布广泛，从简短标题到长篇描述，反映了19至20世纪丹麦广告的文体演变特征。

使用方法

该数据集适用于自然语言处理与数字人文领域的多类任务。研究者可直接加载'train'分区的哈夫曼编码数据，利用'text'字段进行丹麦语广告文本的序列分类或主题建模；结合'date'与'newspaper'元数据，可追踪图书广告在特定历史时期的传播模式。对于需要监督学习的场景，'book_announce'可作为二分类标签，用于训练广告类型识别模型。此外，'pooled'特征向量支持基于语义的广告聚类或检索研究，而'predicted_category'与'characters'等字段可作为预训练语言模型的验证基准。数据以Parquet格式高效存储，兼容Hugging Face Datasets库的流式加载与分片处理。

背景与挑战

背景概述

丹麦书籍广告原始数据集（danish-book-ads-raw-data）由丹麦研究机构创建，旨在推动历史报纸中图书广告的数字化挖掘与分析。该数据集收录了138,561条广告记录，涵盖文本内容、发布日期、报纸来源及预测类别等字段，为探究19至20世纪丹麦出版业、阅读文化及图书市场演变提供了珍贵资料。其构建融合了自然语言处理与历史学视角，核心研究问题聚焦于如何从海量非结构化报纸广告中自动识别图书宣传信息，进而重构书籍传播网络与知识流通模式。这一数据集不仅填补了丹麦语历史广告资源的空白，也为北欧区域的文化遗产数字化研究树立了标杆。

当前挑战

该数据集面临的核心挑战在于历史文本的多样性与噪声问题：19世纪报纸印刷质量参差不齐、字体样式繁多、版面布局复杂，导致光学字符识别（OCR）错误率高，直接影响文本特征提取与分类精度。此外，广告语言风格的时代差异与简略表达（如缺少完整书名或作者）增加了图书公告的判别难度。在构建过程中，手工标注与自动化分类的平衡尤为棘手，需兼顾大规模处理效率与领域历史知识的精确性，而跨年代广告类别的演化进一步加剧了模型泛化的挑战。

常用场景

经典使用场景

该数据集汇集了历史报纸中刊登的丹麦图书广告，每一条记录包含广告文本、刊登日期、报纸来源、预测类别及是否确认为图书广告等标注信息。研究者可将其用于历史文献数字化场景中的印刷文本识别与分类任务，例如训练模型区分图书广告与其他商业广告，或识别特定历史时期的出版趋势。数据集规模达到13.8万条样本，涵盖多种报纸来源，为跨媒体信息提取提供了丰富的训练与评估基础。

衍生相关工作

该数据集衍生出一系列历史文本分析与数字人文领域的经典工作。例如，基于其标注信息，研究者开发了面向丹麦语历史OCR文本的语言模型微调策略，显著提升了广告文本的实体识别精度；另有工作利用该数据构建了图书出版时间线预测模型，揭示19至20世纪丹麦文学市场的动态变迁。这些成果不仅验证了数据集作为基准的多功能性，也为其他低资源语言的类似任务提供了方法论参考。

数据集最近研究