five

eduagarcia/LegalPT_dedup

收藏
Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/LegalPT_dedup
下载链接
链接失效反馈
官方服务:
资源简介:
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。该版本的数据集经过去重处理,使用了MinHash算法和局部敏感哈希技术。数据集由六个主要语料库组成,包括Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库的文档数量和去重后的文档数量都有详细统计。

LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。该版本的数据集经过去重处理,使用了MinHash算法和局部敏感哈希技术。数据集由六个主要语料库组成,包括Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库的文档数量和去重后的文档数量都有详细统计。
提供机构:
eduagarcia
原始信息汇总

LegalPT (deduplicated) 数据集概述

数据集详情

基本信息

  • 语言: 葡萄牙语 (pt)
  • 数据集大小: 10M<n<100M
  • 数据集名称: LegalPT (deduplicated)

配置详情

配置: all

  • 特征:
    • id: int64
    • source: string
    • orig_id: int64
    • text: string
  • 分割:
    • train:
      • num_bytes: 85489203570
      • num_examples: 11946015
  • 下载大小: 44555786476
  • 数据集大小: 85489203570

配置: acordaos_tcu

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 2543994549.48221
      • num_examples: 462031
  • 下载大小: 1566036137
  • 数据集大小: 2543994549.48221

配置: datastf

  • 特征:
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
    • id: int64
  • 分割:
    • train:
      • num_bytes: 1555024472.2888384
      • num_examples: 310119
  • 下载大小: 853863429
  • 数据集大小: 1555024472.2888384

配置: iudicium_textum

  • 特征:
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
    • id: int64
  • 分割:
    • train:
      • num_bytes: 692805629.2689289
      • num_examples: 153373
  • 下载大小: 372281973
  • 数据集大小: 692805629.2689289

配置: mlp_pt_BRCAD-5

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 3523570990.7531776
      • num_examples: 542680
  • 下载大小: 1883985787
  • 数据集大小: 3523570990.7531776

配置: mlp_pt_CJPG

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 28122511051.563988
      • num_examples: 6260096
  • 下载大小: 19944599978
  • 数据集大小: 28122511051.563988

配置: mlp_pt_eurlex-caselaw

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 1134175020.033026
      • num_examples: 78893
  • 下载大小: 609610934
  • 数据集大小: 1134175020.033026

配置: mlp_pt_eurlex-contracts

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 343350961.1607806
      • num_examples: 8511
  • 下载大小: 99128584
  • 数据集大小: 343350961.1607806

配置: mlp_pt_eurlex-legislation

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 2316503707.9080825
      • num_examples: 95024
  • 下载大小: 1051142246
  • 数据集大小: 2316503707.9080825

配置: mlp_pt_legal-mc4

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 4400930935.870118
      • num_examples: 187637
  • 下载大小: 2206590934
  • 数据集大小: 4400930935.870118

配置: parlamento-pt

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 2265120232.5456176
      • num_examples: 2109931
  • 下载大小: 1189159296
  • 数据集大小: 2265120232.5456176

配置: tesemo_v2

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • num_bytes: 27248474341
      • num_examples: 1737720
  • 下载大小: 12906298228
  • 数据集大小: 27248474341

数据文件路径

  • 配置: all
    • train: all/train-*
  • 配置: acordaos_tcu
    • train: acordaos_tcu/train-*
  • 配置: datastf
    • train: datastf/train-*
  • 配置: iudicium_textum
    • train: iudicium_textum/train-*
  • 配置: mlp_pt_BRCAD-5
    • train: mlp_pt_BRCAD-5/train-*
  • 配置: mlp_pt_CJPG
    • train: mlp_pt_CJPG/train-*
  • 配置: mlp_pt_eurlex-caselaw
    • train: mlp_pt_eurlex-caselaw/train-*
  • 配置: mlp_pt_eurlex-contracts
    • train: mlp_pt_eurlex-contracts/train-*
  • 配置: mlp_pt_eurlex-legislation
    • train: mlp_pt_eurlex-legislation/train-*
  • 配置: mlp_pt_legal-mc4
    • train: mlp_pt_legal-mc4/train-*
  • 配置: parlamento-pt
    • train: parlamento-pt/train-*
  • 配置: tesemo_v2
    • train: tesemo_v2/train-*

标签

  • legal
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作