Legal-Sentence-Classification-Datasets-and-Models

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/sebischair/Legal-Sentence-Classification-Datasets-and-Models

下载链接

链接失效反馈

官方服务：

资源简介：

该项目包含两个不同的数据集，分别由德国民法中的租赁法法律句子和相关的法律word2vec模型组成。其中一个数据集包含601个租赁法句子，按三种不同的分类法进行标注；另一个数据集包含312个来自德国租赁协议的句子，按九种不同的分类法进行分类。

This project comprises two distinct datasets, one consisting of legal sentences from German civil law pertaining to rental law, along with associated legal word2vec models. The first dataset includes 601 rental law sentences, annotated according to three different classification schemes. The second dataset contains 312 sentences extracted from German rental agreements, categorized under nine different classification schemes.

创建时间：

2018-09-20

原始信息汇总

数据集概述

数据集内容

Statutory Texts
- 包含601个句子，来自德国民法典中的租赁法部分（BGB, §535-§597）。
- 句子按三种不同的语义类型（3种、6种和9种）进行标注。
Rental Agreements
- 包含312个句子，根据一个包含9种不同类别的语义类型系统进行分类。

Word2Vec模型

JRCAcquis Corpus
- 基于德国JRCAcquis语料库训练的word2vec模型，迭代10次，使用300维度和窗口大小为5。
- 预处理步骤包括去除换行符、重复空格、替换德语变音符号、拼写数字、去除标点符号和去除少于3个字符的标记。
- 处理后的语料库包含33,686,085个标记。
German Fiscal Law Judgments
- 基于德国财政法判决的语料库训练的word2vec模型，迭代10次，使用300维度和窗口大小为5。
- 预处理步骤与JRCAcquis Corpus相同。
- 处理后的语料库包含33,686,085个标记。

许可证

所有三个语料库均根据CC BY-SA 3.0许可证发布。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于德国民法中的租赁法条款，涵盖了601条来自德国民法典（BGB，§535-§597）的句子，以及312条来自德国租赁协议的句子。这些句子被分别标注为三种不同的语义分类体系，包括3种、6种和9种语义类型。此外，数据集还包含了两个基于德国法律文本训练的Word2Vec模型，分别基于JRCAcquis语料库和德国财政法判决文本。这些模型通过一系列预处理步骤，如去除换行符、重复空格、替换德语变音符号、拼写数字、去除标点符号以及过滤长度小于3的词汇，最终形成了包含33,686,085个词汇的语料库。

特点

该数据集的显著特点在于其多层次的语义分类体系，提供了从3种到9种不同语义类型的标注，适应了不同复杂度的法律文本分类需求。此外，数据集还包含了两个高质量的Word2Vec模型，这些模型在德国法律领域具有较高的适用性，能够为法律文本的语义分析提供强大的支持。数据集的多样性和专业性使其在法律文本分类和语义分析领域具有广泛的应用潜力。

使用方法

该数据集适用于法律文本的分类和语义分析任务。用户可以利用提供的句子数据进行监督学习，训练分类模型以识别不同语义类型的法律句子。同时，Word2Vec模型可用于法律文本的语义相似度计算、词汇嵌入等任务。用户可以通过加载预训练的Word2Vec模型，结合数据集中的句子进行进一步的文本分析和模型优化。在使用数据集时，建议遵循CC BY-SA 3.0许可协议，并在发布相关研究成果时通知数据集的维护者。

背景与挑战

背景概述

法律语句分类数据集与模型（Legal-Sentence-Classification-Datasets-and-Models）是由德国慕尼黑工业大学（Technical University of Munich）的Ingo Glaser等人创建的，专注于德国民法中的租赁法律条文和租赁协议的语句分类。该数据集包含两个主要部分：一是从德国民法典（BGB）租赁法部分提取的601个句子，按三种不同的语义分类体系进行标注；二是从德国租赁协议中提取的312个句子，按九种语义类型分类。此外，该项目还提供了基于德国JRCAcquis语料库和德国财政法判决语料库训练的Word2Vec模型，这些模型在法律文本处理领域具有潜在的应用价值。

当前挑战

该数据集面临的挑战主要集中在法律文本的复杂性和多样性上。首先，法律语句的语义分类需要高度精确，以确保分类结果的可靠性和实用性。其次，构建过程中需要处理大量的法律文本，包括去除冗余信息、标准化文本格式等，这些步骤对数据预处理技术提出了较高要求。此外，法律文本的语义多样性和专业术语的复杂性使得分类模型的训练和优化成为一个技术难题。最后，如何确保数据集的广泛适用性和在不同法律场景下的泛化能力，也是该数据集未来发展的重要挑战。

常用场景

经典使用场景

Legal-Sentence-Classification-Datasets-and-Models数据集的经典使用场景主要集中在法律文本的语义分类任务中。该数据集提供了来自德国民法典租赁法部分的601个句子，以及来自德国租赁协议的312个句子，这些句子均被标注为三种不同的语义分类体系（3种、6种和9种语义类型）。研究者可以利用这些标注数据进行法律文本的自动分类，从而辅助法律从业者快速理解和处理法律文件。

解决学术问题

该数据集解决了法律文本自动分类这一重要的学术研究问题。通过提供多层次的语义分类标注，研究者能够探索和验证不同分类模型的性能，尤其是在法律领域的特定语境下。这不仅有助于提升法律文本处理的自动化水平，还为法律信息检索、法律咨询系统等领域的研究提供了宝贵的数据支持，具有重要的学术价值和实际意义。

衍生相关工作

基于Legal-Sentence-Classification-Datasets-and-Models数据集，研究者已开展了一系列相关工作。例如，有研究利用该数据集训练的Word2Vec模型进行法律术语的语义相似度计算，从而提升法律文本的语义理解能力。此外，还有研究者将该数据集与其他法律文本数据集结合，探索跨领域的法律文本分类方法，进一步推动了法律信息处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集