chcaa/hist-dk-pos
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/chcaa/hist-dk-pos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从1824年出版的丹麦历史报纸小说中提取的例句。文本是从Press-and-Plot数据集(具体为索引10)中随机选择的。数据集经过多轮词性标注:首先使用SpaCy的丹麦语词性标注器进行自动标注,然后由两名标注者分别手动审查和修正,最后由第一名标注者裁决最终标签以解决少量差异。数据集由奥胡斯大学人文计算中心(CHC)的GoldenMatrix策划,奥尔堡大学的ENO处理,Pascale Feldkamp上传,语言为1824年的丹麦语,许可为公共领域(CC0)。
This dataset contains example sentences extracted from a piece of historical Danish newspaper fiction published in 1824. The text is randomly selected from the Press-and-Plot dataset (specifically, index 10). The text underwent multi-round annotation for part-of-speech (PoS) tagging: first automated tagging using SpaCys Danish PoS tagger, then manual review and correction by two annotators, and finally adjudication by the first annotator to resolve discrepancies. The dataset is curated by GoldenMatrix at Center for Humanities Computing (CHC), Aarhus University, processed by ENO at Aalborg University, uploaded by Pascale Feldkamp, in Danish (dan) from 1824, under the Public Domain (CC0) license.
提供机构:
chcaa
搜集汇总
数据集介绍

构建方式
该数据集源自1824年丹麦报纸小说片段,文本从Press-and-Plot数据集中随机抽取(索引10)。构建过程采用多轮标注策略:首先利用SpaCy的丹麦语词性标注器(da_core_news_sm模型)进行自动化标注;随后由两名标注员独立对初标结果进行人工校核与修正;最终由首位标注员对比两份修正版本,裁决议定最终的词性标签,以消弭分歧。数据集共包含704条训练样本,每条样本由单词及其对应词性标签构成。
特点
数据集聚焦于历史丹麦语小说文本的词性标注,具有鲜明的历时语言学特色。其独特之处在于融合了自动化工具与多人协作校正的混合标注流程,通过双重人工审校与仲裁机制有效提升了标注信度。数据总量虽小(仅704个示例),但精准反映了19世纪初丹麦书面语的语法特征,为历史语言学研究提供了高质量的粒度化语言资源,尤其适用于低资源场景下的词性标注模型微调与评估。
使用方法
用户可通过Hugging Face Datasets库便捷加载数据,使用Python代码`load_dataset("chcaa/hist-dk-pos", split="train")`获取训练集。返回的Dataset对象可直接转换为Pandas DataFrame(`ds.to_pandas()`),便于与常见机器学习框架无缝集成。数据集预置单一默认配置,无需额外参数即可调用。建议用于历史文本的词性标注任务,或作为丹麦语自然语言处理模型在历时语料上的基准测试数据。
背景与挑战
背景概述
历史语言学与自然语言处理(NLP)的交叉领域,长期受限于高质量标注语料匮乏,尤其是针对早期语言变体的资源。hist-dk-pos数据集应运而生,由丹麦奥胡斯大学人文学科计算中心(CHC)的GoldenMatrix项目团队联合奥尔堡大学ENO实验室,于近期创建并发布。该数据集聚焦于1824年丹麦报纸小说文本,通过多轮人工与自动结合的词性标注,旨在为历史丹麦语提供细粒度的形态句法分析资源。其核心研究问题在于如何在语言演变背景下,构建可靠的标注基准以支持历史文本的自动解析。作为首个针对19世纪初丹麦语小说创作的词性标注集,该数据集为丹麦历史语言学、计算文体学及数字人文研究提供了基础数据支撑,推动了低资源历史语言模型的评估与发展。
当前挑战
该数据集面临的挑战具有双重维度。从领域问题看,需应对历史丹麦语在词汇形态与句法结构上与现代标准语的显著差异,包括古旧拼写、已废弃的屈折变化及特定历史语境下的词类模糊性,这要求标注方案既能反映历时语言特征,又兼顾现代解析器的适配性。构建过程中,团队面临标注一致性难题:先经SpaCy自动预标注,再由两名标注员独立修正,最终通过裁决消除分歧,但这种多轮流程仍可能因历史文本的歧义性导致残留分歧。此外,语料仅704个示例且来源单一(1824年的单一报纸小说),规模与领域覆盖面极为有限,限制了模型泛化能力与下游任务的可迁移性,凸显了历史语言资源在标注成本与数据多样性之间的典型矛盾。
常用场景
经典使用场景
在历史语言学与计算语言学交叉领域中,hist-dk-pos数据集为研究19世纪初丹麦书面语的词性标注提供了珍贵的标注语料。该数据集源于1824年出版的丹麦报纸小说片段,经过多轮人工校验与自动标注结合的方式,构建了高质量的词性标签体系。其经典使用场景包括训练与评估历史丹麦语的序列标注模型,例如条件随机场或基于Transformer的词性标注器,从而实现对古丹麦语文本的自动化句法分析,为历史文本的数字化处理奠定基础。
解决学术问题
该数据集有效解决了历史丹麦语词性标注资源匮乏的学术困境,填补了早期现代丹麦语语料库在细粒度形态句法标注方面的空白。通过提供人工校对的黄金标准标签,它使得研究者能够量化评估现有NLP工具(如SpaCy)在历史语言变体上的性能偏差,并推动针对低资源历史语言的迁移学习与领域适应方法的发展。这一工作显著增强了历史文献的数字人文研究能力。
衍生相关工作
该数据集衍生了一系列重要工作,包括基于Press-and-Plot语料库的序列标注基准测试,以及针对历史丹麦语的跨领域词性标注模型适配。研究者已将其与同期其他历史丹麦语数据集联合,用于构建统一的标注规范与训练流程。同时,该数据集的标注流程(多轮人工校对与自动标注结合)被后续多个低资源语言项目采纳,并催生了关于历史文本标注一致性与标注者间信度评估的探索性研究。
以上内容由遇见数据集搜集并总结生成



