German4All
收藏arXiv2025-08-29 更新2025-09-03 收录
下载链接:
https://github.com/1t/german4all
下载链接
链接失效反馈官方服务:
资源简介:
German4All是一个大规模的德语数据集,包含五个不同可读性级别的对齐段落级释义。数据集包含超过25,000个样本,使用GPT-4自动合成,并通过人工和基于LLM的评估进行严格评估。数据集可用于简化和复杂化任务,以及可读性控制的释义。German4All旨在解决不同阅读能力背景的读者对简化语言的需求,支持从阅读困难人群到学术专家等多个目标群体。
提供机构:
慕尼黑工业大学
创建时间:
2025-08-25
搜集汇总
数据集介绍

构建方式
German4All数据集的构建采用自动化合成方法,以维基百科2022年12月德文语料库为源数据,筛选出26,665个热门段落作为输入文本。通过GPT-4-turbo模型生成五个可读性级别的释义文本,系统提示词明确定义了从简易语言到学术语言的复杂度分级标准,并采用单样本示例引导生成过程。后续通过自动化过滤机制验证JSON格式合规性、词汇异常及语言一致性,并结合人工审核确保数据质量,最终形成包含25,459个样本的核心数据集。
特点
该数据集的核心特征在于其多级可读性对齐结构,涵盖从面向阅读障碍者的简易语言(级别1)到学术专家级复杂语言(级别5)的连续谱系。每个源文本均配有五个严格遵循目标复杂度特征的释义版本,支持文本简化、复杂化及可读性控制生成任务。数据集规模超过25,000个样本,释义总量达125,000条,且通过人工修订的150条测试集提供黄金标准评估基准。其语言特征包括句长梯度变化、词汇复杂度分级及信息密度调控,充分体现德文多层级语言适应性的语言学要求。
使用方法
数据集适用于可读性控制释义模型的训练与评估,用户可通过指定目标复杂度级别(1-5)生成对应文本变体。在训练阶段,可采用多任务学习框架同时处理不同复杂度级别的释义生成;评估时需结合人工标注测试集或LLM评判机制验证内容保真度与语言复杂度匹配性。下游任务涵盖迭代式文本简化、可读性评估及跨复杂度文本生成,使用时需注意维基百科源文本的描述性特征可能对生成风格产生影响。
背景与挑战
背景概述
German4All数据集由慕尼黑工业大学研究团队于2025年创建,是首个大规模德语可读性控制复述语料库。该数据集针对德语文本简化研究领域,旨在解决传统文本简化系统仅支持单一复杂度输出的局限性。通过涵盖五个可读性层级(从阅读障碍群体适用的简易语言到学术专家使用的专业语言),该数据集为德语自然语言处理提供了多粒度文本适应性转换的基础资源,推动了可访问性通信技术的发展。
当前挑战
该数据集主要解决德语多层级文本复述的挑战,包括如何保持原文语义一致性同时实现复杂度转换,以及如何处理不同目标读者群体的语言特征差异。构建过程中面临合成数据质量控制难题,需通过自动化过滤和人工校正确保跨复杂度层级的信息保留度;同时需克服德语语言特性带来的结构复杂性,例如复合词处理和句法重构,以及平衡语言学规范与实际可读性需求之间的张力。
常用场景
经典使用场景
在德语文本可读性控制研究领域,German4All数据集为多层级文本复述任务提供了标准化评估基准。该数据集通过将原始文本转换为五个不同复杂度等级的平行文本,支持研究者系统分析语言简化与复杂化过程中的语言学特征变化。其经典应用场景包括训练可读性感知的复述模型,评估模型在不同复杂度层级上的表现一致性,以及探究词汇选择、句法结构与文本可读性之间的量化关系。
实际应用
在实际应用层面,German4All支撑了面向多类用户群体的智能文本适配系统开发。教育机构可利用其构建分级阅读材料自动生成工具,帮助语言学习者循序渐进提升阅读能力;新闻媒体可基于该技术实现同一内容的多版本发布,满足不同识字水平读者的信息获取需求;公共服务部门则能借助其生成符合无障碍标准的易读文本,提升信息传播的普惠性。
衍生相关工作
基于该数据集衍生的经典工作包括可读性控制 paraphrasing 模型蒸馏、多层级文本复杂度评估体系构建以及跨语言可读性迁移学习研究。研究者利用其训练的Flan-T5模型在德语文本简化任务中达到最先进性能,后续工作进一步扩展了其在迭代简化、可读性预测等任务的应用。相关研究还推动了德语简易语言(Leichte Sprache)与标准德语间的量化对比分析,为语言可访问性研究提供了重要数据支撑。
以上内容由遇见数据集搜集并总结生成



