danish-book-ads
收藏Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/chcaa/danish-book-ads
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“丹麦报纸广告中的书籍与期刊(1800-1850)”,包含从1800年至1850年间丹麦报纸广告中自动提取并清洗的书籍标题和作者姓名记录。数据来源于九家丹麦地方报纸的数字化档案,共包含80,938条广告记录。每条记录对应一个书籍公告,核心字段包括:从原始广告文本中提取的标题(含清理后版本)、作者信息(原始字符串及重构的全名、姓氏、名字)、由TF-IDF逻辑回归分类器预测的主题类别(共10个类别,如农业与家政、教育、历史地理哲学、法律政治、文学、音乐、宗教神学、戏剧等,以及‘未知’类别)、分类器置信度(或手动验证标记‘gold’/作者启发式标记‘author’)、原始广告文本、发布日期、广告类型(书籍、期刊或年鉴日历)、订阅信息、发送者信息等。数据集为单一训练集,未划分验证/测试集。所有文本均为19世纪丹麦语正字法。该数据集适用于文本分类任务(如预测书籍广告的主题类别)以及数字人文领域的信息提取研究,可用于探索19世纪早期丹麦的图书市场、出版地理和阅读文化。数据集采用CC BY 4.0许可协议发布。
The dataset is named Danish Newspaper Advertisements for Books and Periodicals (1800-1850), containing automatically extracted and cleaned records of book titles and author names from Danish newspaper advertisements between 1800 and 1850. The data originates from digitized archives of nine Danish local newspapers, comprising a total of 80,938 advertisement records. Each record corresponds to a book announcement, with core fields including: titles extracted from original advertisement text (with cleaned versions), author information (original strings and reconstructed full names, surnames, given names), subject categories predicted by a TF-IDF logistic regression classifier (10 categories in total, such as Agriculture and Household, Education, History Geography Philosophy, Law Politics, Literature, Music, Religion Theology, Drama, etc., along with an unknown category), classifier confidence (or manual verification labels gold/author heuristic labels), original advertisement text, publication date, advertisement type (book, periodical, or almanac/calendar), subscription information, sender information, etc. The dataset is a single training set without validation/test splits. All text is in 19th-century Danish orthography. It is suitable for text classification tasks (e.g., predicting subject categories of book advertisements) and information extraction research in digital humanities, useful for exploring the book market, publishing geography, and reading culture in early 19th-century Denmark. The dataset is released under the CC BY 4.0 license.
提供机构:
Center for Humanities Computing Aarhus
创建时间:
2026-05-19
搜集汇总
数据集介绍

构建方式
该数据集源自对1800至1850年间丹麦九家地方报纸数字化广告的自动化处理,综合运用了规则匹配、命名实体识别以及经过训练的TF-IDF逻辑回归分类器,从原始广告文本中提取并清洗出图书标题与作者信息。每一条记录均对应一则图书广告,通过分类器预测其主题类别,部分记录还附有人工验证的黄金标注或基于作者名称的启发式标注,以提升分类可信度。数据集共包含80,938条广告记录,整合为一个统一的训练集,为后续分析提供坚实的数据基础。
特点
数据集兼具历史文献的原始风貌与现代结构化整理的优势,每个样本均包含唯一标识符、出版日期、原始广告文本、清洗后的书名与作者全名及拆分后的名和姓,还标注了预测主题类别和置信度。此外,数据集按广告类型区分为图书、期刊、年鉴与日历,并记录了订阅信息与发件人详情,为研究19世纪早期丹麦的图书市场、出版地理及阅读文化提供了多维度的精细视角。
使用方法
数据集适用于文本分类任务,可直接利用'category_predicted'字段作为标签,训练模型预测图书广告的主题类别。对于数字人文研究,可借助'date'、'sender'、'first_name'、'last_name'等字段开展出版时间分布、地域传播模式和作者网络分析。用户可通过Hugging Face Datasets库快速加载数据,并以Pandas DataFrame格式进行处理,便于整合到后续的机器学习或统计分析流程中。
背景与挑战
背景概述
在数字人文与历史书籍市场研究的交汇处,书籍广告作为窥探19世纪早期阅读文化与社会风貌的重要窗口,长期受限于结构化数据的匮乏。为此,Alie Lassche、Rie Eriksen等来自丹麦皇家图书馆及相关学术机构的研究人员,于2026年构建了danish-book-ads数据集。该数据集聚焦1800至1850年间丹麦九份地方报纸中自动提取并清洗的80,938条广告记录,旨在通过文本分类与信息抽取手段,揭示彼时出版地理、书籍流通与读者偏好的深层规律。其发布为丹麦文学史、出版史及计算语言学领域提供了宝贵的基准资源,推动了历史报纸语料的结构化研究进程。
当前挑战
该数据集所解决的领域核心挑战在于从19世纪丹麦语报纸的非结构化广告文本中高效识别书籍标题与作者信息,以弥补早期印刷品数字化后缺乏语义标注的短板。构建过程中,研究者面临多重困难:一是历史文本中正字法不统一且噪声严重(如印刷残缺、拼写变异),导致规则与命名实体识别方法的召回率受限;二是广告内容繁杂(含期刊、年鉴等),需借助TF-IDF逻辑回归分类器进行类别预测,但部分类别因语料稀疏而置信度不足;三是数据清洁工作艰巨,需人工校对与启发式方法双重介入以平衡规模与质量。
常用场景
经典使用场景
danish-book-ads数据集收录了19世纪上半叶丹麦九份地方报纸中逾八万条图书广告记录,是数字人文领域用于研究历史书业生态与阅读文化的经典资源。研究者可借助该数据集开展文本分类任务,利用TF-IDF逻辑回归分类器预测图书广告所属主题类别,涵盖农业、教育、历史、法律、文学、音乐、宗教、戏剧等十余个领域。同时,数据集提供了经过清洗的标题、作者全名及原始广告文本,便于信息抽取与语义分析。这一资源尤其适合构建历史文献自动分类模型,推动对19世纪丹麦出版地理、图书市场结构及读者偏好的量化探索。
实际应用
在实际应用层面,danish-book-ads的价值跨越了学术研究与文化遗产保护的边界。图书馆与档案馆可借助数据集训练的分类模型自动标引历史报刊中的图书广告,提升数字化馆藏的语义检索能力。出版史学界可利用其结构化字段进行跨地域书业网络的重建,追踪畅销书流向与地方知识传播路径。此外,教育机构可将该数据集用作数字人文教学案例,指导学生实践自然语言处理与历史语料库建设。文化科技企业亦可在此基础上开发面向19世纪丹麦文献的智能搜索或数字化策展工具,使沉睡于故纸堆中的广告信息焕发新的生命力。
衍生相关工作
围绕danish-book-ads数据集已衍生出一系列富有洞见的学术工作。原始构建团队基于该语料发展了融合规则方法、命名实体识别与主题分类的混合信息抽取流水线,为历史广告文本的自动化处理提供了方法论范式。后续研究中,学者们利用数据集中预测的主题标签与时间戳,绘制了1800至1850年间丹麦图书市场主题类别的时间序列,揭示了宗教类书籍份额下降、教育与文学类作品崛起的长期趋势。部分工作进一步将广告记录与丹麦国家书目比对,评估了广告数据对实际出版量的覆盖度,讨论了广告作为历史出版指标的偏差与局限性。这些衍生研究不仅验证了数据集的可信度,也推动了计量书史方法的精细化发展。
以上内容由遇见数据集搜集并总结生成



