czech-legal-sft-dataset

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/udold/czech-legal-sft-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

捷克法律SFT数据集是一个专门用于微调捷克法律顾问语言模型的对话数据集。该数据集整合了多个来源的法律内容：包含来自捷克法律咨询网站的23,950个公共法律问答、来自最高行政法院的200个专家问答与解答，以及3,080个带有文档创建指令的捷克法律条文。数据集总样本量为27,148个，采用对话格式组织，每个样本包含一个messages字段，该字段是由角色（如system、user、assistant）和内容组成的字典列表，平均对话长度为4.2条消息。数据主要语言为捷克语，同时包含拉丁法律术语。该数据集旨在用于指令调优大语言模型，以支持捷克法律问答和文档起草任务。需要注意的是，数据中建议质量存在差异（公共问答与专家标注），可能包含过时的法律条文引用，且内容不构成律师-客户特权关系。

Czech Legal SFT Dataset is a dialogue dataset specifically designed for fine-tuning Czech legal advisor language models. It integrates legal content from multiple sources: including 23,950 public legal Q&A pairs from Czech legal advice websites, 200 expert Q&A pairs from the Supreme Administrative Court, and 3,080 Czech legal provisions with document creation instructions. The total sample size is 27,148, organized in a dialogue format, with each sample containing a messages field that is a list of dictionaries composed of roles (e.g., system, user, assistant) and content. The average dialogue length is 4.2 messages. The primary language is Czech, with Latin legal terminology included. This dataset is intended for instruction tuning of large language models to support Czech legal Q&A and document drafting tasks. It should be noted that there are variations in suggestion quality (public Q&A vs. expert annotations), potential outdated legal references, and the content does not constitute attorney-client privilege.

创建时间：

2026-05-11

原始信息汇总

数据集概述：Czech Legal SFT Dataset

基本信息

语言：捷克语（主要），包含拉丁法律术语
许可证：CC-BY-NC-4.0
标签：捷克语、法律、问答、对话、机器学习实习生
数据规模：10,000 < 样本数 < 100,000

数据来源

该数据集整合了三个捷克法律相关来源：

roslein/Legal_advice_czech：23,950 条来自捷克咨询网站的公共法律问答
kucerj56/czech-sacd-legal-questions：200 条来自捷克最高行政法院（Nejvyšší správní soud）的专家问答
roslein/Czech_legal_code：3,080 条捷克法律及文件创建说明

数据格式

每个样本包含一个 messages 字段，为字典列表，每个字典具有 role 和 content 键，支持系统、用户和助手三种角色。示例结构如下： json [ {"role": "system", "content": "Jste zkušený český právní poradce..."}, {"role": "user", "content": "Jaké jsou podmínky pro..."}, {"role": "assistant", "content": "Podle § 5 odst. 2..."} ]

统计信息

总样本数：27,148 条
平均对话长度：4.2 条消息
语言：以捷克语为主，包含拉丁法律术语

预期用途

该数据集旨在微调指令调优的大型语言模型（LLMs），用于捷克法律问答和法律文档起草。

加载方式

使用 Hugging Face datasets 库加载： python from datasets import load_dataset dataset = load_dataset("udold/czech-legal-sft-dataset", split="train")

局限性

建议质量不一（混合了公共问答与专家 SACD 标注）
可能包含过时的法定引用
内容不具有律师-客户特权属性

搜集汇总

数据集介绍

构建方式

该数据集专为捷克语法律助手模型的监督微调而设计，汇集了来自多个高质量来源的法律问答对。其主要构件包括来自捷克法律咨询网站的23,950条公开问答、来自最高行政法院的200条专家级问答，以及3,080条捷克法律条文及其文档撰写说明。每条样本均以多轮对话格式组织，包含系统提示、用户提问与助手回答，从而形成结构化的训练数据。

特点

数据集总计包含27,148条样本，平均对话长度为4.2条消息，覆盖了捷克语为主的法律咨询场景，并包含少量拉丁法律术语。其核心特色在于融合了公众咨询与专家注释的双重来源，既反映了实际法律咨询的多样性，又保证了部分数据的专业权威性，为模型提供了丰富的语义与风格差异。

使用方法

适用于对指令微调的大型语言模型进行捷克语法律问答与文档起草能力的训练。用户可通过HuggingFace的`datasets`库直接加载，例如使用`load_dataset("udold/czech-legal-sft-dataset", split="train")`。需注意数据中专家注释与公众问答的质量差异，部分法律条文可能已过时，且内容不具备律师-客户保密特权。

背景与挑战

背景概述

捷克语法律SFT数据集（Czech Legal SFT Dataset）由研究团队于2023年构建，旨在为捷克法律领域的大语言模型提供监督微调资源。该数据集整合了来自公共法律咨询网站、最高行政法院专家问答以及捷克法律条文三大来源的27,148条对话样本，覆盖从民间日常咨询到专业司法判例的多层次法律知识。其核心研究问题是如何通过结构化指令微调，使语言模型掌握捷克法律体系中的条款引用、文书起草与案例解析能力。作为首个面向捷克法律场景的大规模对话式微调数据集，它为低资源语言的法律AI应用奠定了数据基础，推动了中欧法律信息学的发展。

当前挑战

该数据集面临多重挑战：首先在领域问题层面，捷克法律体系融合大陆法系与历史法律术语，模型需准确理解§条款引用、拉丁语专业词汇及嵌套式法律逻辑，这使得通用问答范式难以直接迁移。其次在构建过程中，公共咨询数据质量参差不齐，部分回答存在事实偏差或过时法条引用，而专家标注数据仅有200条，导致稀有法律场景（如宪法诉讼、国际商法）的样本覆盖严重不足。此外，数据集的捷克语单语特性限制了跨法系知识迁移，且未处理律师-客户特权内容的合规性问题，可能影响模型在实际法律辅助场景中的部署可靠性。

常用场景

经典使用场景

Czech-legal-sft-dataset 是为捷克语法律领域的大语言模型指令微调而精心构建的对话式数据集。在自然语言处理与法律智能交叉的研究背景下，该数据集最经典的使用场景是训练捷克语法律顾问聊天机器人，使其能够基于用户提出的法律问题，生成具有法律依据的、结构化的答复。研究者利用其包含系统提示、用户提问与助手回答的三轮对话格式，开展面向捷克民法典、行政法、劳动法等领域的问答模型训练，从而提升模型在法律条款引用、法律推理和文书草拟方面的表现。

解决学术问题

该数据集的问世有效应对了捷克语法律领域缺乏高质量、结构化监督微调数据的学术困境。在低资源语言的法律NLP研究中，传统方法多依赖机器翻译或少量人工标注，导致模型在法律术语理解与捷克特有法律体系适应上表现欠佳。Czech-legal-sft-dataset 通过融合公共法律咨询网站数据（23,950条）与最高法院专家问答（200条），既保证了数据规模又融入专业法律知识，显著提升了模型在捷克法律语境下的语义理解与生成能力，为后续法律智能研究奠定了数据基础。

衍生相关工作

基于此数据集，衍生出多项引领捷克法律NLP发展的经典工作。一方面，研究者将其与捷克语司法判决数据集（如 SACD）结合训练，构建了能够进行法律判决预测与案例摘要的多任务模型。另一方面，该数据集推动了捷克法律知识图谱的构建，通过抽取对话中的法律实体与关系，实现了条款与实务问答的自动关联。此外，还有工作探索了跨语言迁移学习，利用该数据集微调的多语言法律模型在捷克与斯洛伐克法律任务中取得突破，验证了对话式法律数据在低资源场景下的泛化价值。

以上内容由遇见数据集搜集并总结生成