steuerllm_pretraining_dataset

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/windprak/steuerllm_pretraining_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于德国税法领域的预训练数据集，数据来源于fineweb的过滤结果。该数据集旨在支持德国税法分析任务，特别是为大型语言模型在税法领域的专业化训练提供数据基础。更多详细信息可参考相关GitHub仓库和学术论文《SteuerLLM: Local specialized large language model for German tax law analysis》。

创建时间：

2026-02-11

原始信息汇总

SteuerLLM 预训练数据集概述

数据集基本信息

数据集名称: SteuerLLM 预训练数据集
托管平台: Hugging Face Datasets
页面地址: https://huggingface.co/datasets/windprak/steuerllm_pretraining_dataset

数据集来源与构成

数据来源: 该数据集是从 FineWeb 数据集中筛选出的德语税法相关文本。
筛选目的: 专门用于德国税法分析领域大型语言模型的预训练。

关联研究论文

论文标题: SteuerLLM: Local specialized large language model for German tax law analysis
发表年份: 2026年
论文类型: arXiv 预印本
论文编号: arXiv:2602.11081
论文链接: https://arxiv.org/abs/2602.11081
作者: Sebastian Wind, Jeta Sopa, Laurin Schmid, Quirin Jackl, Sebastian Kiefer, Fei Wu, Martin Mayr, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh

更多信息

项目仓库: 关于该数据集的更多信息，请访问 https://github.com/windprak/steuerllm

搜集汇总

数据集介绍

构建方式

在德国税法领域，专业数据集的构建需兼顾法律文本的精确性与大规模语料的覆盖度。SteuerLLM预训练数据集从广泛的网络语料库中筛选而来，其核心在于运用领域特定的过滤策略，从海量德语网页内容中识别并提取与税法相关的文本片段。这一过程不仅涉及关键词匹配，还结合了语义分析技术，以确保所选材料能够准确反映德国税法的专业术语、法律条文结构及实际应用语境，从而为后续的模型预训练奠定高质量的语料基础。

特点

该数据集的特点体现在其高度的领域专注性与语言专业性。作为专门针对德国税法设计的预训练资源，它涵盖了税法条文、案例分析、行政解释等多种文本类型，确保了内容的多样性与代表性。数据集中的文本均经过严格筛选，保留了法律语言特有的精确性、规范性与逻辑严密性，同时避免了无关或低质量信息的混入。这种设计使得数据集能够有效支持模型学习税法领域的专业表达与知识结构，为后续的领域适应任务提供了坚实的语料支撑。

使用方法

在法学与自然语言处理交叉研究中，该数据集主要用于领域适应性预训练。研究人员可将其作为增量预训练的语料输入，以增强基础语言模型对德国税法专业知识的理解与生成能力。典型的使用流程包括数据加载、预处理（如分词、格式标准化）以及结合持续学习策略进行模型微调。通过这种方式，模型能够逐步吸收税法领域的术语体系与文本特征，进而提升在税法问答、条文解析或案例推理等下游任务中的性能表现，推动法律智能应用的发展。

背景与挑战

背景概述

随着人工智能在专业领域应用的深化，法律科技领域对具备专业知识的语言模型需求日益增长。SteuerLLM预训练数据集由德国埃尔朗根-纽伦堡大学等机构的研究团队于2026年创建，旨在构建专注于德国税法的专业语言模型。该数据集从大规模网络语料中筛选出德语税务相关内容，核心研究问题在于如何将通用语言模型适配至高度专业化的法律术语体系，以提升模型对德国税法条文的理解与推理能力，为法律智能分析系统的发展提供了重要的数据基础。

当前挑战

该数据集致力于解决德国税法领域的专业文本理解与生成挑战，其核心难点在于法律文本的精确性、复杂逻辑关系以及动态更新的法规体系。在构建过程中，研究团队面临从海量网络数据中精准识别与提取税务相关内容的挑战，需克服领域噪声过滤、专业术语对齐以及数据版权合规等多重障碍，以确保数据质量与法律严谨性。

常用场景

经典使用场景

在德语税法领域，SteuerLLM预训练数据集主要用于领域自适应预训练，以提升大型语言模型对专业法律文本的理解能力。该数据集通过从大规模网络语料中筛选出税法相关内容，为模型提供了丰富的德语法律术语和结构化知识，使其能够更准确地处理税法咨询、法规解释等任务，从而在专业场景中展现出卓越的性能。

解决学术问题

该数据集有效解决了法律自然语言处理中领域知识匮乏的学术挑战，通过提供高质量的德语税法语料，支持模型学习精确的法律术语和复杂的法规结构。这不仅促进了法律文本的语义理解研究，还为跨领域知识迁移提供了实证基础，推动了专业领域语言模型的发展，具有重要的理论意义和实践影响。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如SteuerLLM模型的构建与优化，该模型专门针对德语税法分析进行了持续预训练和微调。此外，相关研究还探索了法律领域的小样本学习、术语对齐和跨语言法律信息检索等方法，进一步拓展了专业领域语言模型的应用边界和技术深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集