rcds/MultiLegalSBD

Name: rcds/MultiLegalSBD
Creator: rcds
Published: 2024-11-21 17:37:17
License: 暂无描述

Hugging Face2024-11-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rcds/MultiLegalSBD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言法律和判决文本数据集，包含法语、意大利语、西班牙语、英语和德语等多个语言版本的法律文本和判决文本。每个文本都包含文本内容、跨度信息、令牌信息和来源信息。此外，数据集还提供了一个包含所有数据的总配置，以及分别针对每种语言的法律和判决文本的单独配置。

This dataset is a multilingual legal and judicial text dataset, including versions in French, Italian, Spanish, English, and German languages for both legal texts and judicial decisions. Each text contains the text content, span information, token information, and source information. In addition, the dataset provides a total configuration containing all data, as well as separate configurations for legal and judicial texts in each language.

提供机构：

rcds

原始信息汇总

数据集概述

1. 数据集配置名称及语言

fr_Laws
it_Laws
es_Laws
en_Laws
de_Laws
fr_Judgements
it_Judgements
es_Judgements
en_Judgements
de_Judgements
pt_laws
pt_judgements
all_laws
all_judgements
all_all

2. 数据集特征

text (dtype: string)
spans (list)
- start (dtype: int64)
- end (dtype: int64)
- label (dtype: string)
- token_start (dtype: int64)
- token_end (dtype: int64)
tokens (list)
- text (dtype: string)
- start (dtype: int64)
- end (dtype: int64)
- id (dtype: int64)
- ws (dtype: bool)
source (dtype: string)

3. 数据集分割

train
- num_bytes (存储大小)
- num_examples (示例数量)

4. 数据集大小及下载大小

download_size (下载大小)
dataset_size (数据集大小)

数据集详细信息

fr_Laws

num_bytes: 8773683
num_examples: 2131
download_size: 0
dataset_size: 8773683

it_Laws

num_bytes: 8130577
num_examples: 2910
download_size: 0
dataset_size: 8130577

es_Laws

num_bytes: 6260211
num_examples: 677
download_size: 0
dataset_size: 6260211

en_Laws

num_bytes: 0
num_examples: 0
download_size: 0
dataset_size: 0

de_Laws

num_bytes: 13792836
num_examples: 13
download_size: 0
dataset_size: 13792836

fr_Judgements

num_bytes: 8788244
num_examples: 315
download_size: 0
dataset_size: 8788244

it_Judgements

num_bytes: 8989061
num_examples: 243
download_size: 0
dataset_size: 8989061

es_Judgements

num_bytes: 9460558
num_examples: 190
download_size: 0
dataset_size: 9460558

en_Judgements

num_bytes: 18401754
num_examples: 80
download_size: 0
dataset_size: 18401754

de_Judgements

num_bytes: 14082173
num_examples: 131
download_size: 0
dataset_size: 14082173

pt_laws

num_bytes: 1005902
num_examples: 58
download_size: 209128
dataset_size: 1005902

pt_judgements

num_bytes: 812282
num_examples: 10
download_size: 173424
dataset_size: 812282

all_laws

num_bytes: 54918438
num_examples: 5789
download_size: 9958380
dataset_size: 54918438

all_judgements

num_bytes: 88858845
num_examples: 969
download_size: 17588440
dataset_size: 88858845

all_all

num_bytes: 143777284
num_examples: 6758
download_size: 27546820
dataset_size: 143777284

搜集汇总

数据集介绍

构建方式

在法律文本处理领域，MultiLegalSBD数据集通过系统化的方法构建而成。该数据集整合了法语、意大利语、西班牙语、英语、德语和葡萄牙语的法律条文与司法判决文本，涵盖了多种法律文件类型。构建过程中，对原始法律文档进行了细致的预处理，包括文本清洗、结构解析和语言标准化，确保数据的一致性与可用性。每个样本均标注了文本片段及其边界信息，提供了精确的字符级和词级标注，为后续的句子边界检测任务奠定了坚实基础。

特点

MultiLegalSBD数据集展现出多语言与多领域的显著特征，覆盖了六种主要语言的法律文本，包括法律条文和司法判决两大类别。数据集提供了丰富的标注信息，如文本片段起始与结束位置、标签及分词细节，支持细粒度的语言分析。其结构设计灵活，允许用户按语言或文件类型选择配置，便于针对特定研究需求进行定制化使用。这种多维度的数据组织方式，为跨语言法律文本处理研究提供了宝贵的资源。

使用方法

使用MultiLegalSBD数据集时，研究人员可通过HuggingFace平台直接加载特定配置，如法语法律条文或意大利语司法判决等子集。数据集以标准化的格式提供，包含文本、标注片段和分词信息，便于集成到自然语言处理流程中。用户可利用这些数据进行句子边界检测模型的训练与评估，或开展多语言法律文本的对比分析。通过灵活选择配置，该数据集支持从单语言到跨语言的多种应用场景，助力法律人工智能领域的发展。

背景与挑战

背景概述

在法律自然语言处理领域，多语言法律文本的句子边界检测是一项基础且关键的任务。MultiLegalSBD数据集由研究机构rcds创建，旨在应对法律文档中句子分割的复杂性。该数据集涵盖了法语、意大利语、西班牙语、英语、德语和葡萄牙语等多种语言的法律条文与司法判决文本，通过精细的标注体系为跨语言法律文本分析提供了重要资源。其核心研究问题在于解决法律文本特有的句式结构、引用格式及多语言差异对句子边界识别带来的挑战，对推动法律智能应用的发展具有显著影响力。

当前挑战

MultiLegalSBD数据集面临的挑战主要体现在两个方面：在领域问题层面，法律文本通常包含复杂的嵌套结构、大量缩写与专业术语，这些因素使得传统句子边界检测方法准确率受限；同时，不同法律体系的语言表达习惯差异显著，增加了跨语言统一建模的难度。在构建过程中，数据收集需克服多语言法律语料的获取壁垒，标注工作则要求标注者具备法律专业知识以确保标签的精确性，这些因素共同构成了数据集构建的主要障碍。

常用场景

经典使用场景

在法律自然语言处理领域，MultiLegalSBD数据集为多语言法律文本的句子边界识别提供了基准资源。该数据集涵盖法语、意大利语、西班牙语、英语、德语和葡萄牙语的法律条文与司法判决文本，其经典使用场景在于训练和评估跨语言句子分割模型。通过精确标注的句子边界和词元信息，研究者能够开发出适应法律文本复杂句式结构的算法，从而提升自动化处理法律文档的准确性。

衍生相关工作

围绕该数据集衍生的经典工作包括多语言法律BERT的微调研究，以及基于注意力机制的句子边界检测框架。例如，Legal-BERT系列模型利用该数据进行领域适应训练，显著提升了法律文本的表示能力。同时，跨语言迁移学习方案通过共享该数据集的多语言标注，实现了低资源语言法律文本处理技术的突破，推动了全球化法律智能工具的发展。

数据集最近研究