justina_clarus_clean_small

Hugging Face2025-10-26 更新2025-10-27 收录

下载链接：

https://huggingface.co/datasets/VirtuoTuring/justina_clarus_clean_small

下载链接

链接失效反馈

官方服务：

资源简介：

JUSTINA Clarus - Legal PT — Clean Data Set 是一个葡萄牙语法律问答数据集，包含约95%的法律内容，涉及民法典、民事诉讼法、公司法和家庭法等，以及教义讨论。数据集格式为JSON Lines (.jsonl)，每行包含一个聊天样本，由多个回合的messages数组组成。数据集已去除重复行，以提高信号噪声比，适合用于监督微调和评估。

创建时间：

2025-10-25

原始信息汇总

JUSTINA Clarus - Legal PT — Clean Data Set 数据集概述

数据集基本信息

数据集名称: JUSTINA Clarus - Legal PT — Clean Data Set
数据集类型: 法律问答数据集
语言: 葡萄牙语（pt-PT）
数据格式: JSON Lines (.jsonl)
数据规模: 100K<n<1M
许可证: virtuo许可证

数据集内容

主要内容: 葡萄牙法律问答对话，约95%为严格的法律内容
法律领域:
- 民法典
- 民事诉讼法
- 公司法
- 家庭法
- 法律学说讨论
数据特征: 已移除完全重复的行，提高信噪比

数据格式说明

每行包含一个对话样本
使用messages数组格式： json {"messages": [{"role":"user","content":"…"}, {"role":"assistant","content":"…"}]}
无头部信息
无尾随逗号

用途说明

主要用途: 用于葡萄牙法律助手的监督微调和基准测试
特别说明: 不构成法律建议

数据来源

精选的内部材料
葡萄牙学说来源
已移除完全重复的内容

注意事项

包含特定司法管辖区的法律内容
需要验证引用和适用性
许可证由数据集所有者设定

搜集汇总

数据集介绍

构建方式

在葡萄牙法律知识体系构建背景下，该数据集通过系统化采集与整理内部法律文献及权威学说资料形成原始语料库。构建过程中采用去重优化策略，精确剔除完全重复的对话样本，确保数据集中每条记录均具备独立语义价值。数据处理流程遵循严谨的规范化标准，将原始法律问答内容转换为结构化对话格式，最终形成规模介于十万至百万条之间的精炼数据集。

特点

该数据集最显著的特征在于其高度专业化的法律领域覆盖，约95%内容聚焦葡萄牙民法体系核心领域，包括民法典、民事诉讼法、公司法与家庭法等专业范畴。数据呈现形式采用标准化对话结构，每条记录包含完整的用户提问与助理回答的交互序列。其语言纯粹性体现在全部使用欧洲葡萄牙语表述，且对话内容深度融入法律条文引用与法理分析，形成具有司法实践指导意义的专业语料。

使用方法

在法律人工智能应用场景中，该数据集主要服务于葡萄牙语法律助手模型的监督式微调与性能评估。研究人员可通过加载JSON Lines格式文件直接获取结构化对话数据，每条记录包含角色标注的对话轮次。使用时应注重法律条文的时效性验证，建议结合最新立法动态进行结果校验。该数据集适用于构建具备法律推理能力的对话系统，但需注意其专业内容具有司法管辖区限定特性，不应直接作为法律意见采纳。

背景与挑战

背景概述

葡萄牙法律问答数据集justina_clarus_clean_small由Justina研究团队基于葡萄牙本土法律体系构建，专注于民事法典、民事诉讼法及权利滥用等核心法律领域。该数据集通过对话形式呈现约95%的专业法律内容，涵盖实体法与程序法的交叉讨论，为葡萄牙语法律人工智能的发展提供了结构化训练样本。其构建融合了内部 curated 材料与权威法学理论来源，通过精确去重处理显著提升了监督微调场景下的数据信噪比，推动了法律自然语言处理技术在葡语司法系统中的专业化应用。

当前挑战

该数据集需应对法律领域特有的术语体系与逻辑结构挑战，包括对不确定法律概念的精准解析、多重法律条文关联推理的复杂性，以及判例与学说之间的张力平衡。在构建过程中，原始数据的法理深度与对话简洁性之间存在固有矛盾，需通过精确的重复样本剔除来维持知识密度。同时，葡萄牙法律体系特有的时效性特征要求数据标注必须保持与现行法典的严格同步，而跨章节法律概念的相互引用进一步增加了语义一致性的维护难度。

常用场景

经典使用场景

在葡萄牙法律智能系统开发领域，该数据集以其精炼的对话格式和去重处理，成为训练法律问答模型的理想资源。其经典应用体现在模拟真实法律咨询场景，通过用户提问与助理回答的交互模式，系统学习民法典、民事诉讼法等专业领域的知识表达与推理逻辑。这种结构化对话数据能够有效提升模型对法律概念关联性和条文引用的理解能力，为构建专业化法律助手奠定坚实基础。

实际应用

在法律科技实践层面，该数据集支撑着律师事务所智能化咨询系统、司法机构案件预处理平台等实际应用。通过基于该数据训练的模型，可实现法律条文自动检索、案例要点分析、合同条款解读等核心功能，显著提升法律服务的效率与可及性。这些应用不仅减轻了法律从业者的重复性工作负担，更为公众提供了更便捷的法律信息获取渠道。

衍生相关工作

围绕该数据集衍生的经典研究包括葡萄牙语法律文本生成模型的优化、跨法系知识迁移方法的探索，以及法律对话系统的评估框架构建。这些工作深入挖掘了数据集中蕴含的法律推理模式，发展了基于注意力机制的法律概念抽取技术，并建立了针对葡萄牙法律场景的基准测试标准，持续推动着法律人工智能技术在欧洲葡语国家的发展与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集