five

eduagarcia/LegalPT|法律文本数据集|葡萄牙语数据集

收藏
hugging_face2024-05-07 更新2024-03-04 收录
法律文本
葡萄牙语
下载链接:
https://hf-mirror.com/datasets/eduagarcia/LegalPT
下载链接
链接失效反馈
资源简介:
LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。数据集由六个主要语料库组成:Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库都有详细的描述,包括数据来源、数据量和内容类型。数据集主要用于文本生成任务,适用于葡萄牙语(pt-BR和pt-PT)的NLP研究。

LegalPT数据集汇集了葡萄牙语中最大量的公开法律数据,涵盖了立法、判例、法律文章和政府文件等多种来源。数据集由六个主要语料库组成:Ulysses-Tesemõ、MultiLegalPile (PT)、ParlamentoPT、Iudicium Textum、Acordãos TCU和DataSTF。每个语料库都有详细的描述,包括数据来源、数据量和内容类型。数据集主要用于文本生成任务,适用于葡萄牙语(pt-BR和pt-PT)的NLP研究。
提供机构:
eduagarcia
原始信息汇总

数据集概述

基本信息

  • 语言: 葡萄牙语 (pt)
  • 数据集大小: 10M<n<100M
  • 任务类别: 文本生成
  • 标签: 法律

数据集配置详情

配置: all

  • 特征:
    • id: int64
    • source: string
    • orig_id: int64
    • text: string
  • 分割:
    • train:
      • 字节数: 135151899572
      • 样本数: 24194918
  • 下载大小: 71423192838
  • 数据集大小: 135151899572

配置: acordaos_tcu

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 3494790013
      • 样本数: 634711
  • 下载大小: 1653039356
  • 数据集大小: 3494790013

配置: datastf

  • 特征:
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
    • id: int64
  • 分割:
    • train:
      • 字节数: 3699382656
      • 样本数: 737769
  • 下载大小: 1724245648
  • 数据集大小: 3699382656

配置: iudicium_textum

  • 特征:
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
    • id: int64
  • 分割:
    • train:
      • 字节数: 896139675
      • 样本数: 198387
  • 下载大小: 408025309
  • 数据集大小: 896139675

配置: mlp_pt_BRCAD-5

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 20311710293
      • 样本数: 3128292
  • 下载大小: 9735599974
  • 数据集大小: 20311710293

配置: mlp_pt_CJPG

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 63201157801
      • 样本数: 14068634
  • 下载大小: 30473107046
  • 数据集大小: 63201157801

配置: mlp_pt_eurlex-caselaw

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 1499601545
      • 样本数: 104312
  • 下载大小: 627235870
  • 数据集大小: 1499601545

配置: mlp_pt_eurlex-contracts

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 467200973
      • 样本数: 11581
  • 下载大小: 112805426
  • 数据集大小: 467200973

配置: mlp_pt_eurlex-legislation

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 5669271303
      • 样本数: 232556
  • 下载大小: 1384571339
  • 数据集大小: 5669271303

配置: mlp_pt_legal-mc4

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 4483889482
      • 样本数: 191174
  • 下载大小: 2250422592
  • 数据集大小: 4483889482

配置: parlamento-pt

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 2867291543
      • 样本数: 2670846
  • 下载大小: 1319479156
  • 数据集大小: 2867291543

配置: tesemo_v2

  • 特征:
    • id: int64
    • text: string
    • meta:
      • dedup:
        • exact_norm:
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash:
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割:
    • train:
      • 字节数: 29158221995
      • 样本数: 2216656
  • 下载大小: 13543440397
  • 数据集大小: 29158221995
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录