inclusive-sft

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/johannhartmann/inclusive-sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Inclusive German Language SFT Dataset'，旨在微调语言模型，将德语文本重新表述为不含特殊字符的包容性语言。任务描述包括：不使用特殊字符（如*、:、_、Binnen-I），优先使用性别中立术语，在不适中立化时使用配对形式，并保留原意、事实、引用、专有名词和技术术语。数据集详情显示，包含3,990个例子，来源于德国政治演讲（约4,700个片段），生成模型为gemini-2.5-flash，并经过质量过滤（移除空、过短、相同及禁止模式的内容）。格式为ChatML（system/user/assistant）。系统提示要求模型作为德语包容性语言专家，重新表述文本使其更包容但不改变内容或含义。示例展示了输入和输出的对比。数据集还提供了与Unsloth的使用示例，包括加载数据集、模型和训练器的代码。列包括：text（格式化对话）、source_text（原始输入文本）和model_name（生成模型名称）。许可证为Apache 2.0。

创建时间：

2025-12-19

原始信息汇总

Inclusive German Language SFT Dataset 数据集概述

数据集基本信息

语言：德语 (de)
许可证：Apache 2.0
任务类别：文本生成、文本到文本生成
标签：包容性语言、德语、监督微调、性别中立、Unsloth
数据规模：1K < n < 10K

核心任务描述

该数据集用于微调语言模型，以遵循特定规则将德语文本改写为使用包容性语言：

不使用单词内的特殊字符（如 *、:、_、Binnen-I）。
优先使用性别中立术语（例如：Mitarbeiter → Team, Beschäftigte；Lehrer → Lehrkräfte）。
当中立化不适用时，使用配对形式（例如：Bürgerinnen und Bürger）。
保留原文的含义、事实、引用、专有名词和技术术语。

数据集详细属性

属性	值
示例数量	3,990
数据来源	德国政治演讲（约4,700个片段）
生成模型	gemini-2.5-flash
是否经过质量过滤	是（已移除空、过短、相同及包含禁止模式的内容）
数据格式	ChatML（system/user/assistant）

系统提示词

Du bist ein Experte für inklusive deutsche Sprache. Deine Aufgabe ist es, Texte so umzuformulieren, dass sie inklusiver sind, ohne den Inhalt oder die Bedeutung zu verändern.

数据示例

输入文本：Unter allen Berufsgruppen genießen Politiker weltweit das geringste Vertrauen. An der Spitze stehen Feuerwehrleute und Ärzte.
输出文本：Unter allen Berufsgruppen genießen Personen in der Politik weltweit das geringste Vertrauen. An der Spitze stehen Feuerwehrkräfte sowie Ärztinnen und Ärzte.

数据字段说明

text：格式化对话（ChatML模板）
source_text：原始输入文本
model_name：用于生成的模型名称

使用方式

该数据集可与Unsloth库配合使用，进行监督微调训练。具体加载与训练代码示例见数据集详情页。

搜集汇总

数据集介绍

构建方式

在德语自然语言处理领域，构建一个专注于包容性语言转换的数据集需要精心的设计。该数据集源于约四千七百个德语政治演讲片段，通过先进的生成模型进行文本重构，旨在将传统表述转化为符合包容性语言规范的文本。构建过程中实施了严格的质量过滤机制，剔除了空内容、过短文本、重复条目以及包含禁用模式的样本，最终形成了三千九百九十条高质量对话数据，并以ChatML格式进行结构化组织。

使用方法

在具体应用层面，该数据集主要用于对语言模型进行监督式微调，以使其掌握将德语文本转化为包容性表述的能力。使用者可通过Hugging Face的`datasets`库直接加载数据，并利用Unsloth等高效训练框架进行模型适配。典型的流程包括加载预训练模型、配置LoRA等参数高效微调方法，并借助SFTTrainer完成训练。这种使用方法能够有效降低计算资源需求，助力开发出符合现代语言伦理的智能文本处理系统。

背景与挑战

背景概述

在自然语言处理领域，促进语言包容性已成为一项重要的社会技术议题。数据集inclusive-sft由研究人员Johann Hartmann于近期创建，专注于德语文本的包容性改写任务。该数据集源于德国政治演讲文本，旨在通过监督微调技术，训练语言模型将传统德语表述转化为不使用特殊字符的包容性语言形式。其核心研究问题在于如何在不改变原文事实与含义的前提下，系统性地实现性别中立化表达，例如优先使用中性词汇或配对形式。这项工作对德语计算语言学和社会包容性人工智能应用具有显著的推动作用，为开发尊重多元身份的文本生成模型提供了关键数据资源。

当前挑战

该数据集致力于解决德语包容性语言自动生成的挑战，其核心难题在于如何在严格保持语义忠实度的同时，完成复杂且语境敏感的语言风格转换。具体而言，模型需精准区分何时应采用中性术语替代，何时需保留配对形式，并避免引入歧义或扭曲专业术语与专有名词。在数据集构建过程中，挑战主要体现为高质量训练样本的生成与筛选。尽管利用先进大语言模型进行数据合成，但仍需通过严格的质量过滤机制，剔除重复、过短或包含禁用模式的样本，以确保改写结果既符合语言学规范，又具备实际应用价值，这一过程对数据清洗策略提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，特别是在德语文本生成任务中，该数据集为语言模型的监督微调提供了专门资源。其核心应用场景是训练模型将传统德语文本自动转换为符合包容性语言规范的表述，例如在政治演讲、新闻报道或公共文档中，系统性地避免使用带有性别偏见的词汇，转而采用中性化或配对形式的表达。这一过程不仅要求模型理解原文语义，还需掌握德语语法规则与社会语言学规范，以实现流畅、自然的文本改写。

解决学术问题

该数据集主要致力于解决计算语言学中性别偏见消除与包容性语言生成的学术挑战。通过提供大规模、高质量的德语平行语料，它帮助研究者探索如何在保持文本原意的前提下，自动识别并替换带有性别刻板印象的词汇，如将“Lehrer”改写为“Lehrkräfte”。这项工作推动了公平性自然语言处理的发展，为构建无偏见的人工智能系统提供了数据基础，并对跨文化语境下的语言技术伦理研究产生了深远影响。

实际应用

在实际应用中，该数据集能够支持开发面向德语区的智能写作助手、内容审核工具及自动翻译系统。例如，政府机构或媒体公司可利用基于此数据集训练的模型，批量处理官方文件或新闻稿，确保其语言符合现代包容性标准。教育平台也能集成此类技术，为学生提供性别中立的写作建议。这些应用不仅提升了文本的社会接受度，也促进了数字环境中的语言多样性。

数据集最近研究