five

somosnlp/reescritura-textos-administrativos

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/reescritura-textos-administrativos
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于西班牙语行政文本重写的文本数据,主要用于文本生成任务。数据集包含原始文本和修正后的文本,以及用于评估重写质量的评分问题。数据集可以通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段、问题、建议、元数据和注释指南。字段包括原始文本和修正后的文本,问题包括对重写质量的评分。数据集的语言为西班牙语,数据分割为单一的`train`分割。

该数据集包含用于西班牙语行政文本重写的文本数据,主要用于文本生成任务。数据集包含原始文本和修正后的文本,以及用于评估重写质量的评分问题。数据集可以通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段、问题、建议、元数据和注释指南。字段包括原始文本和修正后的文本,问题包括对重写质量的评分。数据集的语言为西班牙语,数据分割为单一的`train`分割。
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 数据集名称: reescritura-textos-administrativos
  • 数据集大小: 1K<n<10K
  • 许可证: Apache-2.0
  • 标签: rlfh, argilla, human-feedback
  • 任务类别: text2text-generation
  • 语言: 西班牙语
  • 美观名称: reescritura de textos administrativos

数据集结构

  • 字段:
    • original: 原始文本,类型为text
    • corregido: 修正后的文本,类型为text
  • 问题:
    • puntuacion: 评分问题,类型为rating,评分范围为1至5
  • 建议:
    • puntuacion-suggestion: 评分建议,类型为rating,评分范围为1至5(可选)
  • 元数据:
    • 提供额外信息,如来源、作者等(可选)

数据集加载

  • 使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("somosnlp/reescritura-textos-administrativos")

  • 使用datasets库加载: python from datasets import load_dataset ds = load_dataset("somosnlp/reescritura-textos-administrativos")

数据集实例

  • Argilla格式: json { "external_id": "record-0", "fields": { "corregido": "...", "original": "..." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }

  • HuggingFace datasets格式: json { "corregido": "...", "external_id": "record-0", "metadata": "{}", "original": "...", "puntuacion": [], "puntuacion-suggestion": null, "puntuacion-suggestion-metadata": { "agent": null, "score": null, "type": null } }

数据集创建

  • 来源数据: 样本文本来自https://www.comunidad.madrid/,通过Mixtral重写
  • 注释者: Marta Fernández Gómez
  • 注释指南: 评估文本澄清工作是否良好

使用考虑

  • 社会影响: 简化语言是基本权利,有助于所有人理解政府和企业的沟通
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作