eduagarcia/LegalPT
收藏Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/LegalPT
下载链接
链接失效反馈官方服务:
资源简介:
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。数据集由六个主要语料库组成:Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库都有详细的描述,包括数据来源、数据量和内容类型。数据集主要用于文本生成任务,适用于葡萄牙语(pt-BR和pt-PT)的NLP研究。
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。数据集由六个主要语料库组成:Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库都有详细的描述,包括数据来源、数据量和内容类型。数据集主要用于文本生成任务,适用于葡萄牙语(pt-BR和pt-PT)的NLP研究。
提供机构:
eduagarcia
原始信息汇总
数据集概述
基本信息
- 语言: 葡萄牙语 (pt)
- 数据集大小: 10M<n<100M
- 任务类别: 文本生成
- 标签: 法律
数据集配置详情
配置: all
- 特征:
id: int64source: stringorig_id: int64text: string
- 分割:
train:- 字节数: 135151899572
- 样本数: 24194918
- 下载大小: 71423192838
- 数据集大小: 135151899572
配置: acordaos_tcu
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 3494790013
- 样本数: 634711
- 下载大小: 1653039356
- 数据集大小: 3494790013
配置: datastf
- 特征:
text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
id: int64
- 分割:
train:- 字节数: 3699382656
- 样本数: 737769
- 下载大小: 1724245648
- 数据集大小: 3699382656
配置: iudicium_textum
- 特征:
text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
id: int64
- 分割:
train:- 字节数: 896139675
- 样本数: 198387
- 下载大小: 408025309
- 数据集大小: 896139675
配置: mlp_pt_BRCAD-5
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 20311710293
- 样本数: 3128292
- 下载大小: 9735599974
- 数据集大小: 20311710293
配置: mlp_pt_CJPG
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 63201157801
- 样本数: 14068634
- 下载大小: 30473107046
- 数据集大小: 63201157801
配置: mlp_pt_eurlex-caselaw
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 1499601545
- 样本数: 104312
- 下载大小: 627235870
- 数据集大小: 1499601545
配置: mlp_pt_eurlex-contracts
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 467200973
- 样本数: 11581
- 下载大小: 112805426
- 数据集大小: 467200973
配置: mlp_pt_eurlex-legislation
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 5669271303
- 样本数: 232556
- 下载大小: 1384571339
- 数据集大小: 5669271303
配置: mlp_pt_legal-mc4
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 4483889482
- 样本数: 191174
- 下载大小: 2250422592
- 数据集大小: 4483889482
配置: parlamento-pt
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 2867291543
- 样本数: 2670846
- 下载大小: 1319479156
- 数据集大小: 2867291543
配置: tesemo_v2
- 特征:
id: int64text: stringmeta:dedup:exact_norm:cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash:cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
train:- 字节数: 29158221995
- 样本数: 2216656
- 下载大小: 13543440397
- 数据集大小: 29158221995
搜集汇总
数据集介绍

构建方式
LegalPT 数据集汇聚了葡萄牙语中最大量的公开法律数据,从立法、司法、法律文章和政府文件等多种来源收集。该数据集构建了六个语料库,包括 [Ulysses-Tesemõ](https://github.com/ulysses-camara/ulysses-tesemo)、[MultiLegalPile (PT)](https://arxiv.org/abs/2306.02069v2)、[ParlamentoPT](http://arxiv.org/abs/2305.06721)、[Iudicium Textum](https://www.inf.ufpr.br/didonet/articles/2019_dsw_Iudicium_Textum_Dataset.pdf)、[Acordãos TCU](https://link.springer.com/chapter/10.1007/978-3-030-61377-8_46) 和 [DataSTF](https://legalhackersnatal.wordpress.com/2019/05/09/mais-dados-juridicos/)。每个语料库都经过精心的数据清洗和格式化,以确保数据的准确性和一致性。
使用方法
使用 LegalPT 数据集的方法如下:1) 下载数据集:用户可以从 HuggingFace 平台上下载 LegalPT 数据集;2) 数据预处理:用户需要对下载的数据集进行预处理,包括数据清洗、格式化和分割等;3) 数据使用:用户可以使用预处理后的数据集进行各种法律文本生成任务,如法律文书生成、法律咨询等。
背景与挑战
背景概述
在葡萄牙法律文本的深度学习领域,数据集的规模和质量对于训练高性能的自然语言处理模型至关重要。LegalPT数据集便是为了应对这一需求而创建的,它聚合了葡萄牙语中最大量的公开法律数据,涵盖了立法、司法判例、法律文章和政府文件等多个来源。该数据集的创建始于2024年,由Garcia等人领导的研究团队完成,其核心研究问题是如何构建一个包含多种法律文本类型的大型语料库,以便在葡萄牙语环境中训练和应用法律领域的自然语言处理模型。LegalPT的发布对于相关领域的研究和应用产生了深远的影响,为法律文本的自动摘要、问答系统、文本分类等任务提供了丰富的数据支持。
当前挑战
尽管LegalPT数据集提供了丰富的葡萄牙语法律文本数据,但在实际应用中仍面临一些挑战。首先,数据集中可能存在重复文本,这可能会影响模型的训练效果。其次,法律文本的专业性和复杂性对模型的泛化能力提出了更高的要求。此外,由于法律领域的快速发展和变化,数据集的更新和维护也是一个持续的挑战。最后,如何确保数据集的准确性和可靠性,以及如何处理数据隐私和安全问题,也是当前亟待解决的问题。
常用场景
经典使用场景
LegalPT数据集是一个葡萄牙语法律文本的集合,旨在为自然语言处理(NLP)模型提供丰富的训练数据。该数据集包含了大量的法律文献,如立法、判决、法律文章和政府文件等,覆盖了葡萄牙语的两种主要变体:巴西葡萄牙语和欧洲葡萄牙语。这些文本经过去重处理,确保了数据集的质量和多样性。LegalPT数据集最经典的使用场景是作为预训练模型的基础,如RoBERTaLexPT,用于提升法律文本处理的准确性和效率。
解决学术问题
LegalPT数据集的建立解决了葡萄牙语法律文本数据稀缺的问题,为法律领域的自然语言处理研究提供了强大的数据支持。通过整合多个来源的法律文本,LegalPT为研究者提供了一个全面且多样的数据集,有助于研究者在法律文本分类、实体识别、文本摘要和生成等任务上进行更深入的探索。此外,该数据集的去重处理也减少了数据冗余,提高了研究结果的可靠性。
实际应用
LegalPT数据集在实际应用中可以用于构建法律信息检索系统、自动法律咨询系统、法律文本分析工具等。例如,基于LegalPT训练的模型可以快速准确地识别法律文本中的关键信息,如案件名称、判决结果、法律条款等,从而提高法律工作的效率和准确性。此外,LegalPT数据集还可以用于法律教育和培训,帮助学生和专业人士更好地理解和应用法律知识。
数据集最近研究
最新研究方向
在法律文本处理领域,数据集的构建和预处理是提高模型性能的关键。LegalPT数据集的整合,涵盖了葡萄牙语法律文本的广泛来源,为NLP模型在法律领域的应用提供了宝贵资源。当前研究前沿包括使用LegalPT训练RoBERTa模型,通过去重和预训练技术提高模型在法律文本生成任务上的准确性和效率。此外,LegalPT数据集也被用于评估和比较不同预训练模型在法律文本处理任务上的性能。随着数据集的持续更新和扩展,LegalPT有望为法律文本处理领域的研究和应用带来更多突破。
以上内容由遇见数据集搜集并总结生成



