German4All
收藏arXiv2025-08-25 更新2025-08-28 收录
下载链接:
https://gith /1t jerman4All
下载链接
链接失效反馈官方服务:
资源简介:
German4All是一个大规模的德语数据集,包含五个不同可读性级别的对齐段落级释义。它涵盖了五个可读性级别,包含超过25,000个样本。数据集是使用GPT-4自动合成的,并通过人工和基于LLM的方式进行严格的评估。使用German4All,我们训练了一个开源的、可读性控制的释义模型,在德语文本简化方面取得了最先进的性能,实现了更细微和针对特定读者的适应。我们开源了数据集和模型,以鼓励在多级别释义上进行进一步的研究。
German4All is a large-scale German-language dataset containing aligned paragraph-level paraphrases across five distinct readability levels. It covers five readability levels and includes over 25,000 samples. The dataset was automatically synthesized using GPT-4, and underwent rigorous evaluation via both human annotators and LLM-based methods. Using German4All, we trained an open-source, readability-controlled paraphrase model that achieves state-of-the-art performance in German text simplification, enabling more granular and reader-specific adaptation. We have open-sourced both the dataset and the model to encourage further research into multi-level paraphrasing.
提供机构:
慕尼黑工业大学
创建时间:
2025-08-25
搜集汇总
数据集介绍
构建方式
German4All数据集的构建依托于维基百科语料库,从2022年12月的德语段落中随机选取了26,665个样本作为基础数据。通过GPT-4-turbo模型生成五个可读性级别的释义文本,每个级别严格遵循预定义的语言复杂度规范,涵盖从简易语言到学术语言的连续谱系。生成过程中采用结构化提示工程,包含复杂度定义、单样本示例及JSON输出格式要求,并通过自动化过滤机制剔除格式错误、词汇异常及非德语内容,最终保留25,459个高质量样本。
特点
该数据集的核心特点在于其多层级可读性对齐结构,每个原始文本均配有五个严格分级的释义版本,覆盖从面向阅读障碍者的简易语言(级别1)至学术专家级复杂语言(级别5)的完整跨度。数据规模超过25,000个样本,总计逾125,000个文本对,兼具规模性与粒度精细性。其释义文本在词汇多样性、句法复杂度和信息密度上呈现系统性差异,且通过人工与LLM联合评估验证了各级别风格的一致性与内容保真度。
使用方法
该数据集支持可读性控制的释义生成、文本简化与复杂化等多重任务。使用者可基于原始文本与目标复杂度级别训练或评估模型,尤其适用于德语可读性自适应系统开发。数据集的层级对齐特性支持迭代简化实验或可读性评估研究。此外,其包含的手动校正子集(German4All-Corrected)可作为黄金标准评估基准,而标注操作类型的数据子集(German4All-Annotated)为模型错误分析提供细粒度指导。
背景与挑战
背景概述
German4All数据集由慕尼黑工业大学研究团队于2025年创建,旨在解决德语多级文本复述任务中缺乏大规模对齐语料库的问题。该数据集包含超过25,000个从维基百科选取的段落样本,通过GPT-4生成五个可读性级别的平行复述文本,覆盖从阅读障碍群体到学术专家的多级语言复杂度。作为德语领域首个大规模可读性可控复述数据集,它为文本简化、复杂化和可读性评估任务提供了重要资源,显著推动了德语可访问性通信技术的研究进展。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决德语多级文本复述中风格一致性保持、信息忠实度与复杂度平衡,以及跨级别语义对齐等核心难题;在构建过程中,面临合成数据质量控制、可读性级别客观评估、幻觉信息检测,以及人工标注与自动评估协同验证等关键技术挑战。此外,还需克服维基百科源文本领域局限性,确保生成文本在保持原意的前提下实现多级语言风格转换。
常用场景
经典使用场景
在德语文本可读性控制研究中,German4All数据集被广泛应用于多层级文本复述任务的训练与评估。该数据集通过提供五个不同复杂度级别的平行文本,支持研究者开发能够根据目标读者群体灵活调整文本复杂度的自然语言处理模型。其经典应用场景包括可控文本简化、复杂化以及跨层级风格迁移实验,为德语自然语言生成领域提供了重要的基准数据。
实际应用
在实际应用层面,German4All数据集支撑了面向不同阅读群体的无障碍文本生成系统开发。其衍生技术可应用于教育领域的分级阅读材料生成、新闻媒体的多版本内容适配、以及面向阅读障碍群体的信息无障碍服务。政府部门和公益组织可利用该技术将政策文件转换为不同复杂度版本,确保信息能够有效触达各类读者群体,促进社会信息公平获取。
衍生相关工作
基于German4All数据集衍生的经典工作包括可读性控制的德语文本简化模型训练、多层级复述质量评估框架构建,以及跨语言可读性控制技术的对比研究。该数据集还启发了针对其他语言的多层级文本适应研究,如西班牙语和法语的可读性控制数据集构建工作,推动了多语言文本可读性研究社区的协同发展。
以上内容由遇见数据集搜集并总结生成



