sirpratama/indonesian-legal-perdata

Name: sirpratama/indonesian-legal-perdata
Creator: sirpratama
Published: 2026-05-01 15:54:33
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sirpratama/indonesian-legal-perdata

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages list: - name: content list: - name: text dtype: string - name: type dtype: string - name: role dtype: string splits: - name: train num_bytes: 85372256 num_examples: 8078 download_size: 34017686 dataset_size: 85372256 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

sirpratama

搜集汇总

数据集介绍

构建方式

该数据集名为indonesian-legal-perdata，专注于印尼民事法律领域的语料构建。通过收集和整理印尼民事法律相关的文本资料，数据集以对话形式组织，每条数据包含角色（role）与内容（content）字段，其中内容进一步细分为文本（text）和类型（type）。这种结构化的构建方式旨在模拟法律咨询或问答场景，为法律领域的自然语言处理任务提供高质量的训练样本。数据集共包含8078条训练样本，总大小为85.37 MB。

特点

indonesian-legal-perdata数据集具有鲜明的领域特色，聚焦于印尼民事法律这一特定领域，内容涵盖法律条文、案例解释与咨询对话。其最大的特点在于采用消息（messages）格式组织数据，每条记录包含多个消息单元，每个单元明确标注角色（如用户或助手）与内容类型，便于模型理解对话上下文。这种结构使得数据集特别适合用于训练对话式法律助手或进行法律文本的语义理解任务，为低资源语言的法律NLP研究提供了宝贵资源。

使用方法

该数据集可直接通过HuggingFace的datasets库加载使用，默认配置为train拆分。用户可通过指定配置名'default'及数据路径'data/train-*'来读取所有训练数据。在应用场景中，推荐将数据集用于微调基于Transformer架构的对话模型，如LLaMA或GPT系列，以增强模型在印尼民事法律领域的问答与推理能力。使用时需注意数据格式，确保输入符合'role'与'content'的层级结构，以便模型正确解析对话历史。

背景与挑战

背景概述

indonesian-legal-perdata数据集是由印度尼西亚研究团队或机构创建的专门针对印度尼西亚民法（perdata）领域的法律文本数据集，其创建时间可追溯至近年自然语言处理在法律智能领域的蓬勃发展时期。该数据集聚焦于印尼民法相关的法律文书、判例或法律咨询对话，旨在为法律文本分析、问答系统及对话生成模型提供高质量的训练资源。作为少数关注印度尼西亚法律体系的开源数据集之一，它填补了低资源语言法律NLP研究的空白，为印尼乃至东南亚地区的法律智能化应用奠定了数据基础。

当前挑战

该数据集首要解决的领域挑战是法律文本的语义复杂性与领域特异性，包括印尼法律术语的精准理解、法律逻辑的推理以及多轮法律咨询对话的连贯性生成。构建过程中面临的挑战包括：法律数据的获取与隐私合规性，需从公开或授权的法律文件中提取并清洗；专业标注的困难，需法律专家参与以保证对话或文本的准确性和代表性；以及数据规模（仅8078条样本）有限，可能导致模型泛化能力不足。此外，印尼语作为低资源语言，在法律领域缺乏完善的预训练模型，进一步增加了任务难度。

常用场景

经典使用场景

印尼民法数据集（indonesian-legal-perdata）专为法律领域的大语言模型微调与评估而构建，涵盖印尼民法典相关的对话式法律咨询与解释场景。该数据集以多轮对话形式呈现，每轮包含角色（用户或助手）及其对应的文本内容，使其成为训练法律人工智能助手回答民法问题、解释法律条文、提供初步法律意见的理想资源。经典使用包括:基于指令的法律问答、法律文本摘要生成、以及法律推理链的构建与优化，从而提升模型在印尼法律语境下的专业应答能力。

解决学术问题

该数据集致力于解决印尼法律信息检索与自然语言处理中的若干学术难题，包括法律领域标注语料匮乏、民法条文问答缺乏标准化基准、以及法律推理任务中因果与逻辑关系建模的挑战。通过提供超过8000条高质量对话样本，研究者得以探索法律知识嵌入与语义相似度计算、少样本学习在法律问答中的迁移效果、以及大语言模型在法律领域的事实一致性与幻觉抑制策略。其意义在于填补了印尼民法NLP研究的空白，为低资源语言的法律智能处理开辟了新的实验路径。

衍生相关工作

围绕该数据集衍生的经典工作包括：基于该数据集微调印尼语法律专用大语言模型（如IndoLegalBERT、Legal-Llama等变体），探索法律领域指令微调的最佳实践；研究数据增强策略，如法律对话合成与多视角改写，以扩展训练规模；以及构建法律问答评估基准，对比不同模型在民法知识掌握与逻辑推理上的表现。此外，还有工作将其与刑法、土地法等其他法律领域数据集联合训练，推动跨领域法律智能体的实现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集