somosnlp/reescritura-textos-administrativos

Name: somosnlp/reescritura-textos-administrativos
Creator: somosnlp
Published: 2024-03-29 17:54:50
License: 暂无描述

Hugging Face2024-03-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/reescritura-textos-administrativos

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于西班牙语行政文本重写的文本数据，主要用于文本生成任务。数据集包含原始文本和修正后的文本，以及用于评估重写质量的评分问题。数据集可以通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段、问题、建议、元数据和注释指南。字段包括原始文本和修正后的文本，问题包括对重写质量的评分。数据集的语言为西班牙语，数据分割为单一的`train`分割。

提供机构：

somosnlp

原始信息汇总

数据集概述

基本信息

数据集名称: reescritura-textos-administrativos
数据集大小: 1K<n<10K
许可证: Apache-2.0
标签: rlfh, argilla, human-feedback
任务类别: text2text-generation
语言: 西班牙语
美观名称: reescritura de textos administrativos

数据集结构

字段:
- original: 原始文本，类型为text
- corregido: 修正后的文本，类型为text
问题:
- puntuacion: 评分问题，类型为rating，评分范围为1至5
建议:
- puntuacion-suggestion: 评分建议，类型为rating，评分范围为1至5（可选）
元数据:
- 提供额外信息，如来源、作者等（可选）

数据集加载

使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("somosnlp/reescritura-textos-administrativos")
使用datasets库加载: python from datasets import load_dataset ds = load_dataset("somosnlp/reescritura-textos-administrativos")

数据集实例

Argilla格式: json { "external_id": "record-0", "fields": { "corregido": "...", "original": "..." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }
HuggingFace datasets格式: json { "corregido": "...", "external_id": "record-0", "metadata": "{}", "original": "...", "puntuacion": [], "puntuacion-suggestion": null, "puntuacion-suggestion-metadata": { "agent": null, "score": null, "type": null } }

数据集创建

来源数据: 样本文本来自https://www.comunidad.madrid/，通过Mixtral重写
注释者: Marta Fernández Gómez
注释指南: 评估文本澄清工作是否良好

使用考虑

社会影响: 简化语言是基本权利，有助于所有人理解政府和企业的沟通

5,000+

优质数据集

54 个

任务类型

进入经典数据集