fernandoperes/py_legislation

Name: fernandoperes/py_legislation
Creator: fernandoperes
Published: 2023-10-04 12:10:16
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fernandoperes/py_legislation

下载链接

链接失效反馈

官方服务：

资源简介：

Paraguay Legislation数据集是一个全面的法律文件集合，来源于巴拉圭的立法框架，包括决议、法令、法律等各类立法文本。该数据集旨在为自然语言处理（NLP）任务提供有价值的资源，特别是用于文本分类任务。分类任务分为两个目标：1）二元分类：判断立法是否对社会产生成本；2）多分类：将文档分类到多个层次化的成本类别中。数据集包含多个子集，如原始数据、句子分割数据、未标记句子数据和标记句子数据（即真实数据），每个子集代表不同的数据质量和预处理阶段。数据集还包含训练集和测试集，用于模型的训练和评估。

提供机构：

fernandoperes

原始信息汇总

数据集概述

基本信息

语言: 西班牙语 (es)
许可证: Apache 2.0
数据规模: 1K<n<10K
任务类别: 文本分类
标签: 法律

配置信息

默认配置:
- 数据文件:
  - 分割: 训练
  - 路径: "/raw_text/train.parquet"
原始文本配置:
- 数据文件:
  - 分割: 训练
  - 路径: "/raw_text/train.parquet"
未标记句子配置:
- 数据文件:
  - 分割: 训练
  - 路径: "/unlabeled_sentences/train.parquet"

数据集信息

原始文本配置:
- 特征:
  - source_id: int64
  - source_name: string
  - text: string
  - text_id: int64
  - extension: 类别标签
    - 名称:
      - 0: docx
      - 1: pdf
      - 2: html
      - 3: txt
      - 4: doc
- 分割: 训练
未标记句子配置:
- 特征:
  - source_id: int64
  - source_name: string
  - text: string
  - text_id: int64
  - cost_type: 类别标签
    - 名称:
      - 0: no_cost
      - 1: adm_cost
      - 2: direct_cost
      - 3: other_cost
  - affected_entity: 类别标签
    - 名称:
      - 0: no_affected_ent
      - 1: companies
      - 2: citizens
      - 3: public_adm
  - io_categories: 序列类别标签
    - 名称:
      - 0: prestacao_info_empresarial_e_fiscal
      - 1: pedidos_de_licencas_e_outros
      - 2: registos_e_notificacoes
      - 3: candidatura_a_subsidios_e_outros
      - 4: disponibilizacao_de_manuais_e_outros
      - 5: cooperacao_com_auditorias_e_outros
      - 6: prestacao_info_a_consumidores
      - 7: outras_ois
  - aa_categories: 序列类别标签
    - 名称:
      - 0: aa_1_familiarizacao_com_oi
      - 1: aa_1_recolha_e_organizacao_de_info
      - 2: aa_1_processamento_de_info
      - 3: aa_1_tempos_de_espera
      - 4: aa_1_deslocacoes
      - 5: aa_1_submissao_de_info
      - 6: aa_1_preservacao_de_info
      - ... (其他类别名称)
  - aa_categories_unique: 序列类别标签
    - 名称:
      - 0: familiarizacao_com_oi
      - 1: recolha_e_organizacao_de_info
      - 2: processamento_de_info
      - 3: tempos_de_espera
      - 4: deslocacoes
      - 5: submissao_de_info
      - 6: preservacao_de_info
- 分割: 训练

数据集描述

巴拉圭立法数据集是一个全面的法律文件集合，源自巴拉圭的立法框架。该数据集包含从巴拉圭立法框架中提取的法律文件，包括决议、法令、法律和其他类型的立法文本。

该数据集已被策划为自然语言处理（NLP）任务的宝贵资源。数据设计用于专注于文本分类任务的研究。分类过程分为两个目标：

二元分类: 0 - 无成本，1 - 成本（立法对社会有成本）
多分类: 将文档分类为多个层次的成本类别。

数据集包含多个子集，每个子集代表不同的数据质量和准备阶段。在这些子集中，您会遇到同一数据的不同版本，主要反映数据质量、元数据列和应用于数据的前处理任务的差异。

子集如下：

原始: 从源文件（URL、PDF和Word文件）提取的数据，没有任何转换或句子分割器。
句子: 按句子分割的规范化数据，主要处理从PDF提取的文本问题。
未标记句子: 巴拉圭立法未标记语料库。
标记句子（地面实况）: 标记数据是用于训练模型的地面实况数据。

数据集包含以下数据分割：

训练集: 用于训练和微调机器学习模型。
测试集: 用于评估模型的准确性、泛化和有效性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集