dtak-transnormer-basic-v1
收藏Hugging Face2025-02-24 更新2025-02-25 收录
下载链接:
https://huggingface.co/datasets/ybracke/dtak-transnormer-basic-v1
下载链接
链接失效反馈官方服务:
资源简介:
DTAK-transnormer-basic是一个德语文本数据集,包含1600至1899年间德国历史文本及其对应的现代德语标准化文本。数据。数据集适用于历史文本标准化模型的训练和评估,提供了原始文本和标准化文本的句子级别的对齐。
创建时间:
2025-02-13
搜集汇总
数据集介绍

构建方式
DTAK-transnormer-basic-v1数据集是基于DTA-Kernkorpus核心语料库构建的,该数据集包含从1600年至1899年的德国历史文本,并将每个句子的历史拼写与现代拼写规范进行对齐。数据集的构建过程包括从原始的ddc_tabs格式文件中提取句子,并将其转换为JSONL格式,同时保留了原始文本和规范化文本的detokenized版本。通过排除部分文档和句子,如超出时间范围的文档、特定评价语料库中的文档等,最终形成了训练、验证和测试三个数据集分割,每个分割在年代和体裁上进行了平衡。
特点
该数据集的特点在于,它是一个并行语料库,提供了同一句子的历史拼写和现代拼写规范化版本,可用于训练和评估历史德语文本规范化模型。数据集具有平衡的文本类型和体裁选择,高质量的转录,以及经过半自动化过程精炼的规范化。此外,数据集还包含了语言识别信息和句子在规范化形式下的负对数似然得分,有助于进一步分析和改进。
使用方法
使用该数据集时,用户可以选择原始文本(orig)作为输入序列,规范化文本(norm)作为标签序列,来训练或评估句子级别的正规化器。数据集以JSONL格式提供,方便处理和加载。用户可以通过数据集中的唯一标识符(basename和par_idx)来检索特定句子,并结合其他元数据进行分析。此外,数据集的构建者鼓励用户参与改进规范化的质量。
背景与挑战
背景概述
DTAK-transnormer-basic-v1数据集脱胎于德国文本档案核心语料库(DTA-Kernkorpus),由柏林-勃兰登堡科学院与人文科学中心自2007年起创建。该数据集是一组平行语料库,包含1600年至1899年间的德语文本,将这些文本的历史拼写与现代化拼写相对应。其旨在为历史德语文本的正字法标准化训练和评估模型提供资源。DTAK-transnormer-basic-v1基于的DTA-Kernkorpus是一个新高标准德语使用参考语料库,含有约1500个标题,约1.5亿词汇。此数据集的构建,体现了对文本类型和体裁的平衡选择以及高质量的转录文本(无低质量的光学字符识别)。
当前挑战
在研究领域,该数据集面临的挑战包括:一是如何准确地将历史拼写转换为现代拼写,处理如拼写变异、方言词汇等复杂性;二是构建过程中,确保句子的正确切分和标准化质量,特别是在自动化处理中避免错误。此外,数据集中还包含了一些具有挑战性的内容,如种族主义、反犹主义、性别歧视等贬义词汇和陈述,这要求研究者在使用数据集时必须谨慎处理,以免传播不当信息。
常用场景
经典使用场景
DTAK-transnormer-basic-v1数据集是一组平行语料,将德国历史拼写文本与其规范化形式相对应。其经典使用场景在于训练和评估句子级别的seq2seq模型,以实现历史德语文本的正字法转换,即将历史拼写文本转换为现代拼写习惯。
解决学术问题
该数据集解决了历史文本处理中的学术研究问题,如如何高效地将历史德语文本转换为现代拼写,以便于现代读者理解和研究。它为德语语言学、历史文献学和自然语言处理等领域的研究提供了宝贵的语料资源。
衍生相关工作
基于DTAK-transnormer-basic-v1数据集,研究者们已经开展了一系列相关工作,如开发用于历史文本正字法转换的工具Transnormer,以及进一步改进和优化文本规范化质量的研究。
以上内容由遇见数据集搜集并总结生成



