eduagarcia/LegalPT_dedup
收藏Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/LegalPT_dedup
下载链接
链接失效反馈官方服务:
资源简介:
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。该版本的数据集经过去重处理,使用了MinHash算法和局部敏感哈希技术。数据集由六个主要语料库组成,包括Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库的文档数量和去重后的文档数量都有详细统计。
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。该版本的数据集经过去重处理,使用了MinHash算法和局部敏感哈希技术。数据集由六个主要语料库组成,包括Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库的文档数量和去重后的文档数量都有详细统计。
提供机构:
eduagarcia
原始信息汇总
LegalPT (deduplicated) 数据集概述
数据集详情
基本信息
- 语言: 葡萄牙语 (pt)
- 数据集大小: 10M<n<100M
- 数据集名称: LegalPT (deduplicated)
配置详情
配置: all
- 特征:
id: int64source: stringorig_id: int64text: string
- 分割:
train:num_bytes: 85489203570num_examples: 11946015
- 下载大小: 44555786476
- 数据集大小: 85489203570
配置: acordaos_tcu
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 2543994549.48221num_examples: 462031
- 下载大小: 1566036137
- 数据集大小: 2543994549.48221
配置: datastf
- 特征:
text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
id: int64
- 分割:
train:num_bytes: 1555024472.2888384num_examples: 310119
- 下载大小: 853863429
- 数据集大小: 1555024472.2888384
配置: iudicium_textum
- 特征:
text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
id: int64
- 分割:
train:num_bytes: 692805629.2689289num_examples: 153373
- 下载大小: 372281973
- 数据集大小: 692805629.2689289
配置: mlp_pt_BRCAD-5
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 3523570990.7531776num_examples: 542680
- 下载大小: 1883985787
- 数据集大小: 3523570990.7531776
配置: mlp_pt_CJPG
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 28122511051.563988num_examples: 6260096
- 下载大小: 19944599978
- 数据集大小: 28122511051.563988
配置: mlp_pt_eurlex-caselaw
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 1134175020.033026num_examples: 78893
- 下载大小: 609610934
- 数据集大小: 1134175020.033026
配置: mlp_pt_eurlex-contracts
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 343350961.1607806num_examples: 8511
- 下载大小: 99128584
- 数据集大小: 343350961.1607806
配置: mlp_pt_eurlex-legislation
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 2316503707.9080825num_examples: 95024
- 下载大小: 1051142246
- 数据集大小: 2316503707.9080825
配置: mlp_pt_legal-mc4
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 4400930935.870118num_examples: 187637
- 下载大小: 2206590934
- 数据集大小: 4400930935.870118
配置: parlamento-pt
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 2265120232.5456176num_examples: 2109931
- 下载大小: 1189159296
- 数据集大小: 2265120232.5456176
配置: tesemo_v2
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:num_bytes: 27248474341num_examples: 1737720
- 下载大小: 12906298228
- 数据集大小: 27248474341
数据文件路径
- 配置: all
train: all/train-*
- 配置: acordaos_tcu
train: acordaos_tcu/train-*
- 配置: datastf
train: datastf/train-*
- 配置: iudicium_textum
train: iudicium_textum/train-*
- 配置: mlp_pt_BRCAD-5
train: mlp_pt_BRCAD-5/train-*
- 配置: mlp_pt_CJPG
train: mlp_pt_CJPG/train-*
- 配置: mlp_pt_eurlex-caselaw
train: mlp_pt_eurlex-caselaw/train-*
- 配置: mlp_pt_eurlex-contracts
train: mlp_pt_eurlex-contracts/train-*
- 配置: mlp_pt_eurlex-legislation
train: mlp_pt_eurlex-legislation/train-*
- 配置: mlp_pt_legal-mc4
train: mlp_pt_legal-mc4/train-*
- 配置: parlamento-pt
train: parlamento-pt/train-*
- 配置: tesemo_v2
train: tesemo_v2/train-*
标签
- legal



