fernandoperes/py_legislation
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fernandoperes/py_legislation
下载链接
链接失效反馈官方服务:
资源简介:
Paraguay Legislation数据集是一个全面的法律文件集合,来源于巴拉圭的立法框架,包括决议、法令、法律等各类立法文本。该数据集旨在为自然语言处理(NLP)任务提供有价值的资源,特别是用于文本分类任务。分类任务分为两个目标:1)二元分类:判断立法是否对社会产生成本;2)多分类:将文档分类到多个层次化的成本类别中。数据集包含多个子集,如原始数据、句子分割数据、未标记句子数据和标记句子数据(即真实数据),每个子集代表不同的数据质量和预处理阶段。数据集还包含训练集和测试集,用于模型的训练和评估。
提供机构:
fernandoperes
原始信息汇总
数据集概述
基本信息
- 语言: 西班牙语 (es)
- 许可证: Apache 2.0
- 数据规模: 1K<n<10K
- 任务类别: 文本分类
- 标签: 法律
配置信息
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: "/raw_text/train.parquet"
- 数据文件:
- 原始文本配置:
- 数据文件:
- 分割: 训练
- 路径: "/raw_text/train.parquet"
- 数据文件:
- 未标记句子配置:
- 数据文件:
- 分割: 训练
- 路径: "/unlabeled_sentences/train.parquet"
- 数据文件:
数据集信息
- 原始文本配置:
- 特征:
- source_id: int64
- source_name: string
- text: string
- text_id: int64
- extension: 类别标签
- 名称:
- 0: docx
- 1: pdf
- 2: html
- 3: txt
- 4: doc
- 名称:
- 分割: 训练
- 特征:
- 未标记句子配置:
- 特征:
- source_id: int64
- source_name: string
- text: string
- text_id: int64
- cost_type: 类别标签
- 名称:
- 0: no_cost
- 1: adm_cost
- 2: direct_cost
- 3: other_cost
- 名称:
- affected_entity: 类别标签
- 名称:
- 0: no_affected_ent
- 1: companies
- 2: citizens
- 3: public_adm
- 名称:
- io_categories: 序列类别标签
- 名称:
- 0: prestacao_info_empresarial_e_fiscal
- 1: pedidos_de_licencas_e_outros
- 2: registos_e_notificacoes
- 3: candidatura_a_subsidios_e_outros
- 4: disponibilizacao_de_manuais_e_outros
- 5: cooperacao_com_auditorias_e_outros
- 6: prestacao_info_a_consumidores
- 7: outras_ois
- 名称:
- aa_categories: 序列类别标签
- 名称:
- 0: aa_1_familiarizacao_com_oi
- 1: aa_1_recolha_e_organizacao_de_info
- 2: aa_1_processamento_de_info
- 3: aa_1_tempos_de_espera
- 4: aa_1_deslocacoes
- 5: aa_1_submissao_de_info
- 6: aa_1_preservacao_de_info
- ... (其他类别名称)
- 名称:
- aa_categories_unique: 序列类别标签
- 名称:
- 0: familiarizacao_com_oi
- 1: recolha_e_organizacao_de_info
- 2: processamento_de_info
- 3: tempos_de_espera
- 4: deslocacoes
- 5: submissao_de_info
- 6: preservacao_de_info
- 名称:
- 分割: 训练
- 特征:
数据集描述
巴拉圭立法数据集是一个全面的法律文件集合,源自巴拉圭的立法框架。该数据集包含从巴拉圭立法框架中提取的法律文件,包括决议、法令、法律和其他类型的立法文本。
该数据集已被策划为自然语言处理(NLP)任务的宝贵资源。数据设计用于专注于文本分类任务的研究。分类过程分为两个目标:
- 二元分类: 0 - 无成本,1 - 成本(立法对社会有成本)
- 多分类: 将文档分类为多个层次的成本类别。
数据集包含多个子集,每个子集代表不同的数据质量和准备阶段。在这些子集中,您会遇到同一数据的不同版本,主要反映数据质量、元数据列和应用于数据的前处理任务的差异。
子集如下:
- 原始: 从源文件(URL、PDF和Word文件)提取的数据,没有任何转换或句子分割器。
- 句子: 按句子分割的规范化数据,主要处理从PDF提取的文本问题。
- 未标记句子: 巴拉圭立法未标记语料库。
- 标记句子(地面实况): 标记数据是用于训练模型的地面实况数据。
数据集包含以下数据分割:
- 训练集: 用于训练和微调机器学习模型。
- 测试集: 用于评估模型的准确性、泛化和有效性。



