five

rcds/MultiLegalSBD

收藏
Hugging Face2024-11-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rcds/MultiLegalSBD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言法律和判决文本数据集,包含法语、意大利语、西班牙语、英语和德语等多个语言版本的法律文本和判决文本。每个文本都包含文本内容、跨度信息、令牌信息和来源信息。此外,数据集还提供了一个包含所有数据的总配置,以及分别针对每种语言的法律和判决文本的单独配置。

This dataset is a multilingual legal and judicial text dataset, including versions in French, Italian, Spanish, English, and German languages for both legal texts and judicial decisions. Each text contains the text content, span information, token information, and source information. In addition, the dataset provides a total configuration containing all data, as well as separate configurations for legal and judicial texts in each language.
提供机构:
rcds
原始信息汇总

数据集概述

1. 数据集配置名称及语言

  • fr_Laws
  • it_Laws
  • es_Laws
  • en_Laws
  • de_Laws
  • fr_Judgements
  • it_Judgements
  • es_Judgements
  • en_Judgements
  • de_Judgements
  • pt_laws
  • pt_judgements
  • all_laws
  • all_judgements
  • all_all

2. 数据集特征

  • text (dtype: string)
  • spans (list)
    • start (dtype: int64)
    • end (dtype: int64)
    • label (dtype: string)
    • token_start (dtype: int64)
    • token_end (dtype: int64)
  • tokens (list)
    • text (dtype: string)
    • start (dtype: int64)
    • end (dtype: int64)
    • id (dtype: int64)
    • ws (dtype: bool)
  • source (dtype: string)

3. 数据集分割

  • train
    • num_bytes (存储大小)
    • num_examples (示例数量)

4. 数据集大小及下载大小

  • download_size (下载大小)
  • dataset_size (数据集大小)

数据集详细信息

fr_Laws

  • num_bytes: 8773683
  • num_examples: 2131
  • download_size: 0
  • dataset_size: 8773683

it_Laws

  • num_bytes: 8130577
  • num_examples: 2910
  • download_size: 0
  • dataset_size: 8130577

es_Laws

  • num_bytes: 6260211
  • num_examples: 677
  • download_size: 0
  • dataset_size: 6260211

en_Laws

  • num_bytes: 0
  • num_examples: 0
  • download_size: 0
  • dataset_size: 0

de_Laws

  • num_bytes: 13792836
  • num_examples: 13
  • download_size: 0
  • dataset_size: 13792836

fr_Judgements

  • num_bytes: 8788244
  • num_examples: 315
  • download_size: 0
  • dataset_size: 8788244

it_Judgements

  • num_bytes: 8989061
  • num_examples: 243
  • download_size: 0
  • dataset_size: 8989061

es_Judgements

  • num_bytes: 9460558
  • num_examples: 190
  • download_size: 0
  • dataset_size: 9460558

en_Judgements

  • num_bytes: 18401754
  • num_examples: 80
  • download_size: 0
  • dataset_size: 18401754

de_Judgements

  • num_bytes: 14082173
  • num_examples: 131
  • download_size: 0
  • dataset_size: 14082173

pt_laws

  • num_bytes: 1005902
  • num_examples: 58
  • download_size: 209128
  • dataset_size: 1005902

pt_judgements

  • num_bytes: 812282
  • num_examples: 10
  • download_size: 173424
  • dataset_size: 812282

all_laws

  • num_bytes: 54918438
  • num_examples: 5789
  • download_size: 9958380
  • dataset_size: 54918438

all_judgements

  • num_bytes: 88858845
  • num_examples: 969
  • download_size: 17588440
  • dataset_size: 88858845

all_all

  • num_bytes: 143777284
  • num_examples: 6758
  • download_size: 27546820
  • dataset_size: 143777284
搜集汇总
数据集介绍
main_image_url
构建方式
在法律文本处理领域,MultiLegalSBD数据集通过系统化的方法构建而成。该数据集整合了法语、意大利语、西班牙语、英语、德语和葡萄牙语的法律条文与司法判决文本,涵盖了多种法律文件类型。构建过程中,对原始法律文档进行了细致的预处理,包括文本清洗、结构解析和语言标准化,确保数据的一致性与可用性。每个样本均标注了文本片段及其边界信息,提供了精确的字符级和词级标注,为后续的句子边界检测任务奠定了坚实基础。
特点
MultiLegalSBD数据集展现出多语言与多领域的显著特征,覆盖了六种主要语言的法律文本,包括法律条文和司法判决两大类别。数据集提供了丰富的标注信息,如文本片段起始与结束位置、标签及分词细节,支持细粒度的语言分析。其结构设计灵活,允许用户按语言或文件类型选择配置,便于针对特定研究需求进行定制化使用。这种多维度的数据组织方式,为跨语言法律文本处理研究提供了宝贵的资源。
使用方法
使用MultiLegalSBD数据集时,研究人员可通过HuggingFace平台直接加载特定配置,如法语法律条文或意大利语司法判决等子集。数据集以标准化的格式提供,包含文本、标注片段和分词信息,便于集成到自然语言处理流程中。用户可利用这些数据进行句子边界检测模型的训练与评估,或开展多语言法律文本的对比分析。通过灵活选择配置,该数据集支持从单语言到跨语言的多种应用场景,助力法律人工智能领域的发展。
背景与挑战
背景概述
在法律自然语言处理领域,多语言法律文本的句子边界检测是一项基础且关键的任务。MultiLegalSBD数据集由研究机构rcds创建,旨在应对法律文档中句子分割的复杂性。该数据集涵盖了法语、意大利语、西班牙语、英语、德语和葡萄牙语等多种语言的法律条文与司法判决文本,通过精细的标注体系为跨语言法律文本分析提供了重要资源。其核心研究问题在于解决法律文本特有的句式结构、引用格式及多语言差异对句子边界识别带来的挑战,对推动法律智能应用的发展具有显著影响力。
当前挑战
MultiLegalSBD数据集面临的挑战主要体现在两个方面:在领域问题层面,法律文本通常包含复杂的嵌套结构、大量缩写与专业术语,这些因素使得传统句子边界检测方法准确率受限;同时,不同法律体系的语言表达习惯差异显著,增加了跨语言统一建模的难度。在构建过程中,数据收集需克服多语言法律语料的获取壁垒,标注工作则要求标注者具备法律专业知识以确保标签的精确性,这些因素共同构成了数据集构建的主要障碍。
常用场景
经典使用场景
在法律自然语言处理领域,MultiLegalSBD数据集为多语言法律文本的句子边界识别提供了基准资源。该数据集涵盖法语、意大利语、西班牙语、英语、德语和葡萄牙语的法律条文与司法判决文本,其经典使用场景在于训练和评估跨语言句子分割模型。通过精确标注的句子边界和词元信息,研究者能够开发出适应法律文本复杂句式结构的算法,从而提升自动化处理法律文档的准确性。
衍生相关工作
围绕该数据集衍生的经典工作包括多语言法律BERT的微调研究,以及基于注意力机制的句子边界检测框架。例如,Legal-BERT系列模型利用该数据进行领域适应训练,显著提升了法律文本的表示能力。同时,跨语言迁移学习方案通过共享该数据集的多语言标注,实现了低资源语言法律文本处理技术的突破,推动了全球化法律智能工具的发展。
数据集最近研究
最新研究方向
在法律文本处理领域,多语言法律文本的句子边界检测(SBD)正成为自然语言处理的前沿课题。随着全球化法律协作与跨国司法智能化的推进,MultiLegalSBD数据集以其涵盖法语、意大利语、西班牙语、英语、德语和葡萄牙语的法律条文与判决文书,为跨语言法律信息结构化提供了关键资源。当前研究聚焦于利用该数据集训练多语言预训练模型,以提升法律文本的自动分割精度,尤其在处理复杂法律句式与跨语言迁移学习方面展现出潜力。这一进展不仅推动了法律科技中智能合同分析、案例检索系统的发展,也为欧盟等跨国法律实体的数字化进程提供了技术支持,具有显著的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作