eduagarcia/LegalPT

Name: eduagarcia/LegalPT
Creator: eduagarcia
Published: 2024-05-07 17:55:20
License: 暂无描述

Hugging Face2024-05-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eduagarcia/LegalPT

下载链接

链接失效反馈

官方服务：

资源简介：

LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据，涵盖了立法、判例、法律文章和政府文件等多种来源。数据集由六个主要语料库组成：Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库都有详细的描述，包括数据来源、数据量和内容类型。数据集主要用于文本生成任务，适用于葡萄牙语（pt-BR和pt-PT）的NLP研究。

提供机构：

eduagarcia

原始信息汇总

数据集概述

基本信息

语言: 葡萄牙语 (pt)
数据集大小: 10M<n<100M
任务类别: 文本生成
标签: 法律

数据集配置详情

配置: all

特征:
- id: int64
- source: string
- orig_id: int64
- text: string
分割:
- train:
  - 字节数: 135151899572
  - 样本数: 24194918
下载大小: 71423192838
数据集大小: 135151899572

配置: acordaos_tcu

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 3494790013
  - 样本数: 634711
下载大小: 1653039356
数据集大小: 3494790013

配置: datastf

特征:
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
- id: int64
分割:
- train:
  - 字节数: 3699382656
  - 样本数: 737769
下载大小: 1724245648
数据集大小: 3699382656

配置: iudicium_textum

特征:
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
- id: int64
分割:
- train:
  - 字节数: 896139675
  - 样本数: 198387
下载大小: 408025309
数据集大小: 896139675

配置: mlp_pt_BRCAD-5

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 20311710293
  - 样本数: 3128292
下载大小: 9735599974
数据集大小: 20311710293

配置: mlp_pt_CJPG

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 63201157801
  - 样本数: 14068634
下载大小: 30473107046
数据集大小: 63201157801

配置: mlp_pt_eurlex-caselaw

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 1499601545
  - 样本数: 104312
下载大小: 627235870
数据集大小: 1499601545

配置: mlp_pt_eurlex-contracts

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 467200973
  - 样本数: 11581
下载大小: 112805426
数据集大小: 467200973

配置: mlp_pt_eurlex-legislation

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 5669271303
  - 样本数: 232556
下载大小: 1384571339
数据集大小: 5669271303

配置: mlp_pt_legal-mc4

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 4483889482
  - 样本数: 191174
下载大小: 2250422592
数据集大小: 4483889482

配置: parlamento-pt

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 2867291543
  - 样本数: 2670846
下载大小: 1319479156
数据集大小: 2867291543

配置: tesemo_v2

特征:
- id: int64
- text: string
- meta:
  - dedup:
    - exact_norm:
      - cluster_main_idx: int64
      - cluster_size: int64
      - exact_hash_idx: int64
      - is_duplicate: bool
    - minhash:
      - cluster_main_idx: int64
      - cluster_size: int64
      - is_duplicate: bool
      - minhash_idx: int64
分割:
- train:
  - 字节数: 29158221995
  - 样本数: 2216656
下载大小: 13543440397
数据集大小: 29158221995

搜集汇总

数据集介绍

构建方式

LegalPT 数据集汇聚了葡萄牙语中最大量的公开法律数据，从立法、司法、法律文章和政府文件等多种来源收集。该数据集构建了六个语料库，包括 [Ulysses-Tesemõ](https://github.com/ulysses-camara/ulysses-tesemo)、[MultiLegalPile (PT)](https://arxiv.org/abs/2306.02069v2)、[ParlamentoPT](http://arxiv.org/abs/2305.06721)、[Iudicium Textum](https://www.inf.ufpr.br/didonet/articles/2019_dsw_Iudicium_Textum_Dataset.pdf)、[Acordãos TCU](https://link.springer.com/chapter/10.1007/978-3-030-61377-8_46) 和 [DataSTF](https://legalhackersnatal.wordpress.com/2019/05/09/mais-dados-juridicos/)。每个语料库都经过精心的数据清洗和格式化，以确保数据的准确性和一致性。

使用方法

使用 LegalPT 数据集的方法如下：1) 下载数据集：用户可以从 HuggingFace 平台上下载 LegalPT 数据集；2) 数据预处理：用户需要对下载的数据集进行预处理，包括数据清洗、格式化和分割等；3) 数据使用：用户可以使用预处理后的数据集进行各种法律文本生成任务，如法律文书生成、法律咨询等。

背景与挑战

背景概述

在葡萄牙法律文本的深度学习领域，数据集的规模和质量对于训练高性能的自然语言处理模型至关重要。LegalPT数据集便是为了应对这一需求而创建的，它聚合了葡萄牙语中最大量的公开法律数据，涵盖了立法、司法判例、法律文章和政府文件等多个来源。该数据集的创建始于2024年，由Garcia等人领导的研究团队完成，其核心研究问题是如何构建一个包含多种法律文本类型的大型语料库，以便在葡萄牙语环境中训练和应用法律领域的自然语言处理模型。LegalPT的发布对于相关领域的研究和应用产生了深远的影响，为法律文本的自动摘要、问答系统、文本分类等任务提供了丰富的数据支持。

当前挑战

尽管LegalPT数据集提供了丰富的葡萄牙语法律文本数据，但在实际应用中仍面临一些挑战。首先，数据集中可能存在重复文本，这可能会影响模型的训练效果。其次，法律文本的专业性和复杂性对模型的泛化能力提出了更高的要求。此外，由于法律领域的快速发展和变化，数据集的更新和维护也是一个持续的挑战。最后，如何确保数据集的准确性和可靠性，以及如何处理数据隐私和安全问题，也是当前亟待解决的问题。

常用场景

经典使用场景

LegalPT数据集是一个葡萄牙语法律文本的集合，旨在为自然语言处理（NLP）模型提供丰富的训练数据。该数据集包含了大量的法律文献，如立法、判决、法律文章和政府文件等，覆盖了葡萄牙语的两种主要变体：巴西葡萄牙语和欧洲葡萄牙语。这些文本经过去重处理，确保了数据集的质量和多样性。LegalPT数据集最经典的使用场景是作为预训练模型的基础，如RoBERTaLexPT，用于提升法律文本处理的准确性和效率。

解决学术问题

LegalPT数据集的建立解决了葡萄牙语法律文本数据稀缺的问题，为法律领域的自然语言处理研究提供了强大的数据支持。通过整合多个来源的法律文本，LegalPT为研究者提供了一个全面且多样的数据集，有助于研究者在法律文本分类、实体识别、文本摘要和生成等任务上进行更深入的探索。此外，该数据集的去重处理也减少了数据冗余，提高了研究结果的可靠性。

实际应用

LegalPT数据集在实际应用中可以用于构建法律信息检索系统、自动法律咨询系统、法律文本分析工具等。例如，基于LegalPT训练的模型可以快速准确地识别法律文本中的关键信息，如案件名称、判决结果、法律条款等，从而提高法律工作的效率和准确性。此外，LegalPT数据集还可以用于法律教育和培训，帮助学生和专业人士更好地理解和应用法律知识。

数据集最近研究