somosnlp/reescritura-textos-administrativos
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/reescritura-textos-administrativos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于西班牙语行政文本重写的文本数据,主要用于文本生成任务。数据集包含原始文本和修正后的文本,以及用于评估重写质量的评分问题。数据集可以通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段、问题、建议、元数据和注释指南。字段包括原始文本和修正后的文本,问题包括对重写质量的评分。数据集的语言为西班牙语,数据分割为单一的`train`分割。
该数据集包含用于西班牙语行政文本重写的文本数据,主要用于文本生成任务。数据集包含原始文本和修正后的文本,以及用于评估重写质量的评分问题。数据集可以通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段、问题、建议、元数据和注释指南。字段包括原始文本和修正后的文本,问题包括对重写质量的评分。数据集的语言为西班牙语,数据分割为单一的`train`分割。
提供机构:
somosnlp
原始信息汇总
数据集概述
基本信息
- 数据集名称: reescritura-textos-administrativos
- 数据集大小: 1K<n<10K
- 许可证: Apache-2.0
- 标签: rlfh, argilla, human-feedback
- 任务类别: text2text-generation
- 语言: 西班牙语
- 美观名称: reescritura de textos administrativos
数据集结构
- 字段:
- original: 原始文本,类型为
text - corregido: 修正后的文本,类型为
text
- original: 原始文本,类型为
- 问题:
- puntuacion: 评分问题,类型为
rating,评分范围为1至5
- puntuacion: 评分问题,类型为
- 建议:
- puntuacion-suggestion: 评分建议,类型为
rating,评分范围为1至5(可选)
- puntuacion-suggestion: 评分建议,类型为
- 元数据:
- 提供额外信息,如来源、作者等(可选)
数据集加载
-
使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("somosnlp/reescritura-textos-administrativos")
-
使用
datasets库加载: python from datasets import load_dataset ds = load_dataset("somosnlp/reescritura-textos-administrativos")
数据集实例
-
Argilla格式: json { "external_id": "record-0", "fields": { "corregido": "...", "original": "..." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }
-
HuggingFace
datasets格式: json { "corregido": "...", "external_id": "record-0", "metadata": "{}", "original": "...", "puntuacion": [], "puntuacion-suggestion": null, "puntuacion-suggestion-metadata": { "agent": null, "score": null, "type": null } }
数据集创建
- 来源数据: 样本文本来自https://www.comunidad.madrid/,通过Mixtral重写
- 注释者: Marta Fernández Gómez
- 注释指南: 评估文本澄清工作是否良好
使用考虑
- 社会影响: 简化语言是基本权利,有助于所有人理解政府和企业的沟通



