19thc_ms_news
收藏Hugging Face2025-12-08 更新2025-12-09 收录
下载链接:
https://huggingface.co/datasets/npedrazzini/19thc_ms_news
下载链接
链接失效反馈官方服务:
资源简介:
该存储库包含一个历史英文报纸文章数据集,来自LwM和HMD14收藏(1800-1920年),包含提及谋杀和自杀的文章。数据集分为两个文件:1. murder.csv - 包含提及谋杀、杀人等关键词的文章;2. suicide.csv - 包含提及自杀及相关术语(如felodese、felo-de-se等)的文章。
创建时间:
2025-12-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: Historical British newspaper articles mentioning murder and suicide
- 许可证: mit
- 主要语言: 英语 (en)
任务与标签
- 任务类别: 文本检索、文本分类
- 具体任务: 语义相似度评分、文档检索、主题分类
- 标签: 历史文本、报纸、谋杀、自杀、社会史
数据内容
- 数据来源: 来自 LwM 和 HMD14 馆藏的历史英文报纸文章
- 时间范围: 1800年至1920年
- 核心主题: 包含提及谋杀和自杀的文章
文件构成
-
murder.csv- 包含来自 LwM 和 HMD14 的文章。
- 提及词汇包括:murder、homicide。
-
suicide.csv- 包含提及自杀的文章。
- 提及词汇包括:suicide、felodese、felo-de-se、felo de se。
- 文件结构与
murder.csv相同。
相关链接
- LwM 数据集: https://bl.iro.bl.uk/concern/datasets/99dc570a-9460-48ac-baed-9d2b8c4c13c0?locale=en
- HMD14 数据集: https://bl.iro.bl.uk/concern/datasets/2800eb7d-8b49-4398-a6e9-c2c5692a1304
搜集汇总
数据集介绍

构建方式
在历史文本挖掘领域,19thc_ms_news数据集通过系统化采集与筛选构建而成。其源数据来自LwM与HMD14两个权威历史报纸收藏,时间跨度涵盖1800年至1920年。构建过程中,研究者基于关键词检索策略,从海量档案中提取出提及“谋杀”、“杀人罪”以及“自杀”、“felodese”等相关术语的英文报道,最终整理为结构化CSV文件,确保了数据的历史真实性与主题针对性。
特点
该数据集凸显出鲜明的历史与社会特征。其内容聚焦于谋杀与自杀两类敏感社会事件,为研究19世纪至20世纪初英国社会心态、媒体报道倾向及公共话语提供了珍贵素材。数据以原始报纸文章形式保存,语言为历史英语,包含时代特有的拼写与表述,这为语言演变分析提供了可能。同时,清晰的分类(murder.csv与suicide.csv)便于进行对比研究与专题挖掘。
使用方法
使用本数据集时,研究者可将其应用于文本检索、分类及社会历史分析等多个任务。用户可直接加载murder.csv或suicide.csv文件,利用其中的文本字段进行语义相似度计算、主题建模或情感分析。鉴于其历史属性,建议在使用前进行必要的文本清洗与标准化处理,以适配现代自然语言处理模型。该数据集亦适合作为基准数据,用于评估模型在历史文献上的理解和检索性能。
背景与挑战
背景概述
19thc_ms_news数据集聚焦于十九世纪至二十世纪初英国历史报纸中涉及谋杀与自杀事件的报道,由相关学术机构基于LwM与HMD14馆藏构建而成。该数据集的创建旨在深入探究社会历史语境下的暴力与自我伤害现象,为历史学、社会学及数字人文领域的研究者提供了珍贵的文本资源。通过系统梳理1800年至1920年间的新闻报道,它不仅揭示了当时社会对极端事件的叙述方式,还推动了基于历史文本的情感分析、主题分类与语义检索等跨学科研究的发展。
当前挑战
该数据集所应对的核心挑战在于如何从海量历史文献中精准识别并标注涉及谋杀与自杀的语义内容,这要求模型具备对古英语词汇及历史语境的理解能力。在构建过程中,研究者面临历史报纸数字化文本的噪声干扰,如印刷模糊、拼写变异及术语历时演变等问题。同时,数据标注需平衡敏感内容的伦理考量,确保在揭示社会历史模式的同时,避免对现代读者造成潜在的心理影响。
常用场景
经典使用场景
在历史文本分析领域,19thc_ms_news数据集为研究者提供了探索19世纪至20世纪初英国社会暴力事件报道的珍贵资源。该数据集通过收录1800年至1920年间涉及谋杀与自杀的新闻文章,支持语义相似性评分、文档检索和主题分类等任务,使学者能够深入分析历史语境下媒体对暴力事件的叙述模式与演变轨迹。
实际应用
在实际应用中,19thc_ms_news数据集被用于构建历史新闻档案的智能检索系统,帮助档案馆、博物馆及教育机构快速定位特定主题的文献。同时,它支持公共历史项目的开发,例如可视化暴力事件的地理分布或时间序列,增强公众对历史社会问题的认知,并为文化遗产数字化提供数据支撑。
衍生相关工作
基于该数据集衍生的经典工作包括利用自然语言处理技术进行历史事件的情感分析,以及开发针对古英语新闻的命名实体识别模型。这些研究不仅深化了对19世纪媒体语言的理解,还促进了历史文本挖掘工具的优化,为类似时期或主题的档案分析设立了方法论范例。
以上内容由遇见数据集搜集并总结生成



