somosnlp/lenguaje-claro-dataset

Name: somosnlp/lenguaje-claro-dataset
Creator: somosnlp
Published: 2024-04-24 10:17:47
License: 暂无描述

Hugging Face2024-04-24 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/lenguaje-claro-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Lenguaje-Claro-Dataset是一个包含西班牙语法律和行政文本的数据集，这些文本经过简化以提高公众的理解。数据集通过网络爬虫技术从西班牙各部的网站上提取文本，并使用OpenAI的GPT-3.5 API将这些复杂的法律和行政文本转换为清晰易懂的语言。该数据集旨在支持创建能够促进政府文件可访问性的自然语言处理模型，从而提高透明度和公民参与。数据集包含4090个示例，每个示例包括原始文本和简化后的文本，以及其他相关信息如语言、注册、周期等。

提供机构：

somosnlp

原始信息汇总

数据集概述

名称： Lenguaje-Claro-Dataset

语言： 西班牙语（es）

任务类别： 文本到文本生成（text2text-generation）

许可证： Apache-2.0

数据集描述

Lenguaje-Claro-Dataset 包含经过简化的西班牙语法律和行政文本，旨在提高公众的理解。该数据集通过使用 OpenAI 的 GPT-3.5 API 将复杂法律术语转换为清晰易懂的语言，保留了原文本的准确性和意义。此数据集适用于研究人员、法律专业人士、学生及对西班牙公共行政感兴趣的任何人，提供了一种更易于访问法律内容的方式。

数据集结构

特征：
- question: 原始法律文本片段
- answer: 通过 GPT-3.5 转换的简化文本
- idioma: 语言标识，100% 为 es-ES
- registro: 功能变体，100% 为 culto
- periodo: 历史变体，100% 为 actual
- dominio: 领域，100% 为 legal-administrativo
- tarea: 任务，100% 为 simplificación
- país_referencia: 国家参考，100% 为 ES
分割：
- train: 包含 4094 个示例，数据大小为 3769794 字节

数据集创建

来源数据： 西班牙政府各部的网页
数据收集与处理： 使用 Python 和 BeautifulSoup 进行网页抓取，通过 OpenAI 的 GPT-3.5 API 进行文本转换
注释过程： 主要使用 GPT-3.5 进行自动注释，部分示例通过 Argilla 进行修正
注释者： Marta F. Gómez

使用限制

不适用于需要详细法律或行政精确度的应用
不适用于训练需要高精度任务的 LLMs
不适用于正式法律解释
不适用于正式法律或行政文件的撰写
不适用于需要精确技术术语的上下文

许可证

Apache 2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集