SteuerEx

Name: SteuerEx
Creator: 弗里德里希-亚历山大大学·模式识别实验室; 弗里德里希-亚历山大大学·国家高性能计算中心; DATEV eG; 纽伦堡技术大学·巴伐利亚人工智能税务实验室; 弗里德里希-亚历山大大学·税法与公法教席; 亚琛工业大学·医学人工智能实验室; 亚琛大学医院·诊断与介入放射科
Published: 2026-02-12 01:46:01
License: 暂无描述

arXiv2026-02-12 更新2026-02-13 收录

下载链接：

https://steuerllm.i5.ai.fau.de

下载链接

链接失效反馈

官方服务：

资源简介：

SteuerEx是由德国弗里德里希-亚历山大大学构建的首个开放式税法基准数据集，包含115道从2016-2024年本科及研究生课程考试中提取的专家验证题目，涵盖企业所得税、增值税、财政程序等六大核心税法领域。数据集采用真实考试材料构建，每个问题配有分解评分的法律陈述参考方案，支持细粒度部分信用评估机制。该数据集专为测试法律AI模型的法定引用准确性、结构化论证能力和数值计算精度而设计，为税法领域的人工智能研究提供了高标准评估框架。

提供机构：

弗里德里希-亚历山大大学·模式识别实验室; 弗里德里希-亚历山大大学·国家高性能计算中心; DATEV eG; 纽伦堡技术大学·巴伐利亚人工智能税务实验室; 弗里德里希-亚历山大大学·税法与公法教席; 亚琛工业大学·医学人工智能实验室; 亚琛大学医院·诊断与介入放射科

创建时间：

2026-02-12

原始信息汇总

SteuerLLM 数据集概述

数据集名称

SteuerLLM

数据集描述

德国税法人工智能模型，专注于德国税法分析。

开发机构

Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)，模式识别实验室 (Pattern Recognition Lab)

主要功能与服务

交互式对话：用户可与SteuerLLM进行交互式对话，询问有关德国税法的问题。
基准测试系统：提供SteuerEx Benchmark提交系统，用于提交模型预测结果并查看排行榜。

引用信息

BibTeX引用格式如下：

@article{steuerllm, author = {Wind, Sebastian and Sopa, Jeta and Schmid, Laurin and Jackl, Quirin and Kiefer, Sebastian and Wu, Fei and Mayr, Martin and Köstler, Harald and Wellein, Gerhard and Maier, Andreas and Tayebi Arasteh, Soroosh}, title = {SteuerLLM: Local specialized large language model for German tax law analysis}, year = {2026}, journal = {arXiv preprint arXiv:2602.11081}, url = {https://arxiv.org/abs/2602.11081} }

免责声明

本应用由FAU模式识别实验室提供，仅用于学术和研究目的。它是一个非商业研究演示项目，不旨在提供任何专业的法律、税务或财务建议。所有生成内容均自动产生，可能不准确、不完整、具有误导性或存在其他错误。服务运营方不对生成内容的准确性、可靠性、完整性或适用性作任何明示或暗示的陈述或保证。用户基于此处提供的输出所采取的任何行动，均需自行承担全部责任。使用本服务即表示用户承认并同意完全自担风险。

搜集汇总

数据集介绍

构建方式

在德国税法这一高度结构化且严格遵循成文法的专业领域中，SteuerEx数据集的构建体现了对真实学术评估环境的严谨还原。该数据集源自埃尔朗根-纽伦堡大学2016年至2024年间真实举办的本科及研究生阶段税法考试，涵盖企业所得税、增值税、财政程序等六大核心领域。构建过程首先对115道原始考题进行筛选与标准化处理，确保其与现行法律框架的一致性，并排除了过度依赖非文本材料（如图表）的题目。每道题目均配有经税法专家验证的参考答案，其核心创新在于将参考答案分解为752个可独立评分的法律陈述单元，每个单元均标注了反映其法律重要性的原始分值。这种基于陈述的细粒度结构设计，旨在精准模拟真实考试中依据法律论证的完整性与准确性进行部分评分的学术实践，为评估模型的法律推理质量提供了高保真的基准框架。

使用方法

SteuerEx数据集的使用旨在系统评估大型语言模型在德国税法领域的推理能力，其方法严格模拟了学术考试流程。评估分为两个阶段：首先，模型仅接收原始考题文本，在无任何额外提示或检索增强的情况下生成自由格式的答案。随后，进入自动化评分阶段，由一个固定的外部LLM评估器（如GPT-4o）充当评分者。评估器将模型答案与每道题目的参考陈述逐一配对，依据预设的提示结构，从概念正确性、法条准确性和完整性三个维度对每个陈述进行评判，并可根据法律适当性授予部分分数。最终，模型的总分通过累加所有陈述的得分计算得出，并归一化为基准总分的百分比。该方法确保了评估的可重复性与一致性，同时其陈述级细粒度分析能力支持对模型在不同税法子领域表现进行深入归因分析，为比较不同架构与训练范式的模型提供了稳定、透明的平台。

背景与挑战

背景概述

在人工智能与法律交叉领域，德国税法因其高度法典化、频繁修订以及严密的逻辑结构，为大型语言模型（LLM）的推理能力提供了极具挑战性的测试场。SteuerEx数据集应运而生，由德国埃尔朗根-纽伦堡大学（FAU）模式识别实验室联合税务法学教席、高性能计算中心及DATEV eG等机构的研究团队于2024年前后共同创建。该数据集旨在填补德语税法领域缺乏公开、真实评估基准的空白，其核心研究问题是评估LLM在真实学术考试环境下进行结构化法律推理、精确法条引用及数值计算的综合能力。SteuerEx直接从2016年至2024年间FAU本科及研究生阶段的真实税法考试中提取了115道专家验证过的问题，覆盖公司税、所得税、增值税等六大核心领域，并采用分步计分的评估框架，为领域特定的法律人工智能研究提供了高保真度的评估工具，对推动法律AI向专业化、实用化方向发展具有重要影响力。

当前挑战

SteuerEx数据集致力于解决的核心领域挑战在于评估LLM在真实、高风险的德国税法考试环境下的专业推理能力。这要求模型不仅需掌握精确的术语和复杂的法条交叉引用，还必须生成结构化的法律论证，并在严格的评分规则下保证数值准确性，任何细微错误都可能导致答案整体失效。在构建过程中，研究团队面临多重挑战：首要挑战是数据稀缺与真实性保障，需从有限且受版权保护的真实考试材料中生成大规模、高质量的合成训练数据；其次，评估框架的设计极具挑战性，必须设计一种能反映真实考试中渐进式、部分计分特点的自动化评估方法，以超越传统二分类或短答案评估的局限；此外，确保生成数据的法律精确性与领域覆盖度，避免因合成过程引入事实错误或遗漏边缘案例，亦是构建过程中的关键难题。

常用场景

经典使用场景

在德国税法领域，SteuerEx数据集作为首个基于真实大学税法考试的开放基准，其经典使用场景在于评估大型语言模型在严格法律约束下的推理能力。该数据集通过115道专家验证的考试题目，覆盖企业所得税、增值税、财政程序等六大核心领域，并采用分句级部分评分框架，精准模拟了真实学术评估环境。研究者利用SteuerEx对模型进行系统性测试，考察其在法定引用、结构化法律论证及数值计算等方面的表现，从而揭示模型在专业领域中的实际推理局限。

解决学术问题

SteuerEx有效解决了法律人工智能研究中长期存在的评估失真问题。传统法律基准多依赖合成数据或简化任务，难以反映真实考试中渐进式评分与法定精确性的双重约束。该数据集通过分句级评分机制，将法律论证分解为独立可评分的陈述单元，使得模型的部分正确推理能够获得相应学分。这种设计不仅捕捉了最终答案的正确性，更精细评估了模型在法律规范解释、层级化推理及专业术语运用等方面的能力，为领域专业化模型提供了可靠的性能度量标准。

实际应用

在实际应用层面，SteuerEx为税法教育智能化与专业辅助工具开发提供了关键支撑。教育机构可借助该基准开发自适应学习系统，通过模拟真实考试题目帮助学生掌握复杂税法概念。律师事务所与税务咨询公司则能利用基于SteuerEx训练的模型进行案例预分析，快速识别法律要点并生成初步论证框架。此外，该数据集支持构建持续专业发展工具，使税务从业者能够通过模拟考试场景保持对频繁修订的法律条款的掌握，提升实务工作的准确性与效率。

数据集最近研究