five

fernandoperes/py_legislation

收藏
Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fernandoperes/py_legislation
下载链接
链接失效反馈
官方服务:
资源简介:
Paraguay Legislation数据集是一个全面的法律文件集合,来源于巴拉圭的立法框架,包括决议、法令、法律等各类立法文本。该数据集旨在为自然语言处理(NLP)任务提供有价值的资源,特别是用于文本分类任务。分类任务分为两个目标:1)二元分类:判断立法是否对社会产生成本;2)多分类:将文档分类到多个层次化的成本类别中。数据集包含多个子集,如原始数据、句子分割数据、未标记句子数据和标记句子数据(即真实数据),每个子集代表不同的数据质量和预处理阶段。数据集还包含训练集和测试集,用于模型的训练和评估。
提供机构:
fernandoperes
原始信息汇总

数据集概述

基本信息

  • 语言: 西班牙语 (es)
  • 许可证: Apache 2.0
  • 数据规模: 1K<n<10K
  • 任务类别: 文本分类
  • 标签: 法律

配置信息

  • 默认配置:
    • 数据文件:
      • 分割: 训练
      • 路径: "/raw_text/train.parquet"
  • 原始文本配置:
    • 数据文件:
      • 分割: 训练
      • 路径: "/raw_text/train.parquet"
  • 未标记句子配置:
    • 数据文件:
      • 分割: 训练
      • 路径: "/unlabeled_sentences/train.parquet"

数据集信息

  • 原始文本配置:
    • 特征:
      • source_id: int64
      • source_name: string
      • text: string
      • text_id: int64
      • extension: 类别标签
        • 名称:
          • 0: docx
          • 1: pdf
          • 2: html
          • 3: txt
          • 4: doc
    • 分割: 训练
  • 未标记句子配置:
    • 特征:
      • source_id: int64
      • source_name: string
      • text: string
      • text_id: int64
      • cost_type: 类别标签
        • 名称:
          • 0: no_cost
          • 1: adm_cost
          • 2: direct_cost
          • 3: other_cost
      • affected_entity: 类别标签
        • 名称:
          • 0: no_affected_ent
          • 1: companies
          • 2: citizens
          • 3: public_adm
      • io_categories: 序列类别标签
        • 名称:
          • 0: prestacao_info_empresarial_e_fiscal
          • 1: pedidos_de_licencas_e_outros
          • 2: registos_e_notificacoes
          • 3: candidatura_a_subsidios_e_outros
          • 4: disponibilizacao_de_manuais_e_outros
          • 5: cooperacao_com_auditorias_e_outros
          • 6: prestacao_info_a_consumidores
          • 7: outras_ois
      • aa_categories: 序列类别标签
        • 名称:
          • 0: aa_1_familiarizacao_com_oi
          • 1: aa_1_recolha_e_organizacao_de_info
          • 2: aa_1_processamento_de_info
          • 3: aa_1_tempos_de_espera
          • 4: aa_1_deslocacoes
          • 5: aa_1_submissao_de_info
          • 6: aa_1_preservacao_de_info
          • ... (其他类别名称)
      • aa_categories_unique: 序列类别标签
        • 名称:
          • 0: familiarizacao_com_oi
          • 1: recolha_e_organizacao_de_info
          • 2: processamento_de_info
          • 3: tempos_de_espera
          • 4: deslocacoes
          • 5: submissao_de_info
          • 6: preservacao_de_info
    • 分割: 训练

数据集描述

巴拉圭立法数据集是一个全面的法律文件集合,源自巴拉圭的立法框架。该数据集包含从巴拉圭立法框架中提取的法律文件,包括决议、法令、法律和其他类型的立法文本。

该数据集已被策划为自然语言处理(NLP)任务的宝贵资源。数据设计用于专注于文本分类任务的研究。分类过程分为两个目标:

  1. 二元分类: 0 - 无成本,1 - 成本(立法对社会有成本)
  2. 多分类: 将文档分类为多个层次的成本类别。

数据集包含多个子集,每个子集代表不同的数据质量和准备阶段。在这些子集中,您会遇到同一数据的不同版本,主要反映数据质量、元数据列和应用于数据的前处理任务的差异。

子集如下:

  1. 原始: 从源文件(URL、PDF和Word文件)提取的数据,没有任何转换或句子分割器。
  2. 句子: 按句子分割的规范化数据,主要处理从PDF提取的文本问题。
  3. 未标记句子: 巴拉圭立法未标记语料库。
  4. 标记句子(地面实况): 标记数据是用于训练模型的地面实况数据。

数据集包含以下数据分割:

  • 训练集: 用于训练和微调机器学习模型。
  • 测试集: 用于评估模型的准确性、泛化和有效性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作