steuerllm_instruct_dataset

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/windprak/steuerllm_instruct_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SteuerLLM Instruct Dataset 是一个专注于德国税法的对话式数据集，采用多轮对话格式（如用户/助手消息对）。该数据集旨在用于大型语言模型在德国税法主题上的指令调优。数据集包含多个类别，包括标准数据（215,391 条实例，涵盖各种税法问题）、多样性数据（62,289 条实例，旨在增加多样性并提高泛化能力）、所得税数据（7,286 条实例，专注于所得税法）、条款问题（20,186 条实例，针对特定法律段落生成的问题）、会计记录问题（2,700 条实例，针对会计流程生成）、评论问题（4,378 条实例，分析税法条款的评论式问题）以及基于上下文的块问题（172,862 条实例，确保问题与给定上下文直接相关）。数据生成分为主要合成生成和上下文支持生成两类。每个样本都遵循基于角色的对话格式。

创建时间：

2026-02-11

原始信息汇总

SteuerLLM Instruct Dataset 概述

数据集基本信息

许可证: Apache-2.0
语言: 德语 (de)
标签: 税法 (tax-law)、德语 (german)、对话式 (conversational)、合成数据 (synthetic)
用途: 专为在德国税法主题上对大型语言模型进行指令微调而创建。
格式: 采用多轮对话格式（例如，用户/助手消息对）的对话数据集。

数据集构成

类别	实例数量	描述
标准数据	215,391	基础数据集，系统性地涵盖来自税务咨询从业者的各种税法问题。
多样性数据	62,289	旨在增加多样性，包含替代任务类型和复杂场景以提高泛化能力。
所得税数据	7,286	专注于所得税法，涵盖例如七种收入类型（EStG）、自营职业税收和可扣除性。
条款问题	20,186	针对特定法律段落生成的问题，以提高模型引用和解释它们的能力。
会计记录问题	2,700	针对会计流程，使用 GPT-4o 生成，旨在提高财务会计方面的性能。
评论问题	4,378	评论式问题，用于分析和审查税法条款。
上下文块问题	172,862	基于检索到的税法上下文生成，确保问题与给定上下文直接相关。

生成类别

主要合成生成: 标准数据、多样性数据、所得税数据、条款问题、会计记录问题、评论问题。
上下文支持生成: 上下文块问题。

对话结构

每个样本都遵循基于角色的消息的对话格式。

引用

如果使用此数据集，请引用： bibtex @article{steuerllm, author = {Wind, Sebastian and Sopa, Jeta and Schmid, Laurin and Jackl, Quirin and Kiefer, Sebastian and Wu, Fei and Mayr, Martin and Köstler, Harald and Wellein, Gerhard and Maier, Andreas and Tayebi Arasteh, Soroosh}, title = {SteuerLLM: Local specialized large language model for German tax law analysis}, year = {2026}, journal = {arXiv preprint arXiv:2602.11081}, url = {https://arxiv.org/abs/2602.11081} }

搜集汇总

数据集介绍

构建方式

在德国税法领域，专业数据集的构建往往依赖于系统化的知识提取与合成生成技术。SteuerLLM Instruct Dataset的构建采用了多源合成生成策略，其核心数据源自税务从业者的实践经验，覆盖了标准税法问题、多样性场景及所得税专项内容。通过结合初级合成生成与上下文支持生成两种方法，数据集不仅生成了大量基于法律条款和会计流程的问题，还利用检索到的税法上下文生成相关性强的情境化问题，确保了数据的广度与深度。

使用方法

针对税法领域的模型训练，该数据集主要用于指令微调大型语言模型。使用者可按照对话格式加载数据，通过用户与助理的消息对进行多轮交互训练，以提升模型在德语税法分析中的专业应答能力。数据集的分类结构允许针对性训练，例如专注于所得税或法律条款引用任务。在遵循CC BY-NC 4.0许可下，该数据集适用于研究目的，为税法智能化应用提供了可靠的基础资源。

背景与挑战

背景概述

在自然语言处理领域，专业法律文本的理解与生成一直是极具挑战性的研究方向，尤其在多语言环境下，德语税务法律数据的稀缺性制约了相关模型的开发。SteuerLLM Instruct Dataset由Sebastian Wind等研究人员于2026年创建，旨在构建一个针对德国税法的多轮对话数据集，以支持大型语言模型在税务法律领域的指令微调。该数据集由埃尔朗根-纽伦堡大学等机构的研究团队系统性地整合了来自税务咨询实践的基础问题、多样性场景及具体法律条文解析，涵盖了所得税、会计记录等多个专业子领域，为德语法律人工智能的发展提供了关键的数据资源，显著提升了模型在复杂法律推理与专业对话生成方面的能力。

当前挑战

该数据集致力于解决德语税务法律领域的专业对话生成与法律问题解答挑战，其核心难点在于如何准确捕捉税法条文的细微语义差异，并生成符合法律严谨性的多轮交互内容。在构建过程中，研究人员面临数据多样性与专业深度的平衡问题，需通过合成生成与上下文支持相结合的方法，覆盖从基础税务咨询到复杂条文解析的广泛场景；同时，确保生成内容的法律准确性、逻辑一致性以及对话流畅性，避免因数据偏差导致模型产生误导性回答，这对数据标注与验证流程提出了极高的要求。

常用场景

经典使用场景

在德语税务法律领域，专业知识的获取与传播常受限于语言壁垒与法规复杂性。SteuerLLM Instruct Dataset以其多轮对话结构，为大型语言模型的指令微调提供了经典应用场景。该数据集通过系统生成的对话样本，模拟税务咨询中的真实交互，使模型能够学习如何理解并回应涉及所得税、会计记录及法律条文解析的复杂查询，从而在德语税务法律对话任务中实现精准的语义理解与生成。

解决学术问题

该数据集有效应对了税务法律自然语言处理中的核心学术挑战，包括专业领域知识匮乏、多轮对话连贯性不足以及法律条文引用准确性低等问题。通过整合标准数据、多样性数据及条文针对性问题，它促进了模型在德语税务语境下的泛化能力与推理精度，为领域特异性语言模型的开发提供了高质量数据基础，推动了法律人工智能在专业垂直领域的深入应用。

实际应用

在实际应用中，SteuerLLM Instruct Dataset能够支撑智能税务助手、自动化法律咨询系统以及专业教育工具的构建。例如，税务从业人员可利用基于该数据集训练的模型，快速获取所得税计算、会计流程合规性检查或法律条款解读的实时辅助，提升工作效率与准确性。同时，它也为德语区企业及个人提供了便捷、可靠的法律信息查询渠道，降低了税务合规的认知门槛。

数据集最近研究