biglam/blbooksgenre
收藏Hugging Face2026-05-05 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/biglam/blbooksgenre
下载链接
链接失效反馈官方服务:
资源简介:
BL Books Genre数据集包含英国图书馆数字化书籍的元数据记录,并带有众包流派注释(小说/非小说)。该数据集是“与机器共生”项目的一部分。它包含三种配置:title_genre_classifiction用于分类任务,annotated_raw用于注释分析,raw用于大规模推理。数据集来源于18至19世纪英国图书馆目录的元数据,注释通过Zooniverse众包收集。局限性包括时间偏差、语言偏差、编目惯例和注释来源。数据集采用CC0-1.0许可证。
The BL Books Genre dataset consists of metadata records for British Library digitised books with crowdsourced genre annotations (fiction/non-fiction). Created as part of the Living with Machines project, it includes three configurations: title_genre_classifiction for classification tasks, annotated_raw for annotation analysis, and raw for inference at scale. The dataset is derived from British Library catalogue metadata for 18th–19th century books, with annotations collected via Zooniverse crowdsourcing. Limitations include time period bias, language bias, cataloguing conventions, and annotation provenance. The dataset is licensed under CC0-1.0.
提供机构:
biglam
搜集汇总
数据集介绍

构建方式
该数据集源自大英图书馆数字化馆藏的元数据记录,经由Living with Machines项目团队精心构建。研究团队依托Zooniverse众包平台,广泛招募志愿者为书籍标注其体裁归属(小说或非小说),随后对收集到的标注数据进行了严谨的筛选与整理,最终形成包含多个子集的数据资源,旨在支撑19世纪书籍体裁分类的研究。
使用方法
本数据集专为文本分类任务设计,尤其适用于多类别体裁分类模型的训练与评估。研究者可直接加载'title_genre_classifiction'子集,利用其中的标题与标签对构建基于DistilBERT等预训练模型的分类器。此外,亦可通过'annotated_raw'子集复现或深入分析众包标注流程,或利用'raw'子集进行大规模的体裁推断。项目方已提供详尽的复现教程与基于该数据集训练的高精度模型,极大便利了研究者的快速上手与成果验证。
背景与挑战
背景概述
BL Books Genre数据集由Living with Machines项目团队创建,主要研究人员包括Daniel van Strien、Giorgia Tolfo、Victoria Morris和Kaspar Beelen,致力于解决19世纪英国图书体裁分类这一核心研究问题。该数据集基于大英图书馆数字化馆藏的元数据,通过Zooniverse众包平台获取人工标注,并利用Snorkel弱监督方法扩充标注样本。自发布以来,该数据集为历史文献的自动化分类提供了基准资源,尤其推动了数字人文领域中对虚构与非虚构文本的细粒度识别研究,其训练模型在测试集上达到了约0.94的准确率,显著提升了这一时期书目数据的可计算性。
当前挑战
该数据集面临的领域挑战包括:1)19世纪图书体裁分类的模糊性,如混合型作品(虚构与非虚构并存)的判定标准难以统一,且众包标注存在歧义样本(如'无法判断'类别)。2)构建过程中的挑战涉及显著的时间偏倚(出版年份集中在19世纪后半叶,均值约1864年)和语言不平衡(英语标题占比超98%,非英语语种不足500条),导致模型泛化能力受限。此外,部分训练子集依赖Snorkel弱标签而非纯人工标注,可能引入噪声,而遵循大英图书馆编目规范的元数据格式与其他馆藏体系不兼容,进一步增加了跨语料库应用的复杂性。
常用场景
经典使用场景
在数字人文与文化遗产的交叉领域中,BL Books Genre数据集主要用于对英国图书馆数字化馆藏的18至19世纪书籍进行体裁二元分类(虚构/非虚构)。其经典使用场景包括利用标题文本训练机器学习模型以自动预测书籍体裁,尤其适用于大规模历史文献的元数据标记与整理。数据集提供的'标题-体裁分类'子集包含1736条人工精标记录,是训练高精度分类器的理想基石,衍生模型在保留测试集上已达约0.94的准确率,为后续大规模文献自动分类研究奠定了方法论基础。
解决学术问题
该数据集直面的核心学术困境在于,传统人文研究中缺乏一个大规模、具有可靠金标准标签的历史书籍体裁标注资源。通过众包与专家注释相结合的方式,它不仅系统地解决了19世纪英国出版物体裁归属的不确定性难题,还提供了对'无法判断'以及'混合体裁'等边缘情况的数据支持,从而推动了元数据质量评估、弱监督学习在历史文献中的应用,以及量化文学与社会变迁之间复杂关系的实证研究方法演进。其影响在于使计算文本分析真正扎根于历史语境,为计算人文研究提供了可复现的基准。
实际应用
在实际应用中,BL Books Genre数据集展现出的价值远超学术实验。图书馆与档案馆可利用基于该数据训练的模型自动对海量数字化旧籍进行文学/非文学体裁的快速标引,极大缩减手动编目的人力和时间成本。数字出版商与在线古籍平台可以借助该工具优化搜索与推荐系统,使用户能够基于'小说'或'非小说'等审美与功能需求精准筛选内容。此外,在文化遗产教育领域,它还有潜力赋能面向公众的交互式知识图谱构建,帮助非专业用户以更直观的方式探索19世纪出版的经纬脉络。
数据集最近研究
最新研究方向
在数字人文学科与机器学习交叉领域,blbooksgenre数据集引领了利用众包标注与弱监督学习进行19世纪文献体裁分类的前沿探索。该数据集源自大英图书馆“与机器共生”项目,聚焦于海量18至19世纪数字化图书的元数据,通过Zooniverse平台汇聚志愿者智慧,结合Snorkel等弱标签技术,构建了高质量的小说与非小说训练集。当前研究热点集中在基于DistilBERT等预训练模型的体裁分类优化,实现了约0.94的测试准确率,为大规模历史文献的自动化标引与文本挖掘提供了坚实工具。这一进展不仅推动了文化遗产的数字化保护,还深化了计算社会科学对19世纪出版业、读者偏好与社会思潮演变的量化理解,彰显了人机协作在解析历史文本体裁范式中的变革力量。
以上内容由遇见数据集搜集并总结生成



