somosnlp/lenguaje-claro-dataset
收藏Hugging Face2024-04-24 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/lenguaje-claro-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Lenguaje-Claro-Dataset是一个包含西班牙语法律和行政文本的数据集,这些文本经过简化以提高公众的理解。数据集通过网络爬虫技术从西班牙各部的网站上提取文本,并使用OpenAI的GPT-3.5 API将这些复杂的法律和行政文本转换为清晰易懂的语言。该数据集旨在支持创建能够促进政府文件可访问性的自然语言处理模型,从而提高透明度和公民参与。数据集包含4090个示例,每个示例包括原始文本和简化后的文本,以及其他相关信息如语言、注册、周期等。
提供机构:
somosnlp
原始信息汇总
数据集概述
名称: Lenguaje-Claro-Dataset
语言: 西班牙语(es)
任务类别: 文本到文本生成(text2text-generation)
许可证: Apache-2.0
数据集描述
Lenguaje-Claro-Dataset 包含经过简化的西班牙语法律和行政文本,旨在提高公众的理解。该数据集通过使用 OpenAI 的 GPT-3.5 API 将复杂法律术语转换为清晰易懂的语言,保留了原文本的准确性和意义。此数据集适用于研究人员、法律专业人士、学生及对西班牙公共行政感兴趣的任何人,提供了一种更易于访问法律内容的方式。
数据集结构
-
特征:
question: 原始法律文本片段answer: 通过 GPT-3.5 转换的简化文本idioma: 语言标识,100% 为 es-ESregistro: 功能变体,100% 为cultoperiodo: 历史变体,100% 为actualdominio: 领域,100% 为legal-administrativotarea: 任务,100% 为simplificaciónpaís_referencia: 国家参考,100% 为 ES
-
分割:
train: 包含 4094 个示例,数据大小为 3769794 字节
数据集创建
- 来源数据: 西班牙政府各部的网页
- 数据收集与处理: 使用 Python 和 BeautifulSoup 进行网页抓取,通过 OpenAI 的 GPT-3.5 API 进行文本转换
- 注释过程: 主要使用 GPT-3.5 进行自动注释,部分示例通过 Argilla 进行修正
- 注释者: Marta F. Gómez
使用限制
- 不适用于需要详细法律或行政精确度的应用
- 不适用于训练需要高精度任务的 LLMs
- 不适用于正式法律解释
- 不适用于正式法律或行政文件的撰写
- 不适用于需要精确技术术语的上下文
许可证
Apache 2.0



