five

DIBT/MPEP_MALAGASY

收藏
Hugging Face2024-07-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_MALAGASY
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。数据集的主要用途是支持不同的NLP任务,具体任务取决于数据集的配置。数据集的一个实例展示了如何将文本从英语翻译成马尔加什语。

This dataset contains a configuration file conforming to the Argilla dataset format named `argilla.yaml`, and records compatible with HuggingFace `datasets`. The dataset structure includes fields, questions, suggestions, metadata, and annotation guidelines. The primary use of the dataset is to support various NLP tasks, depending on the dataset configuration. An example of the dataset demonstrates the translation of text from English to Malagasy.
提供机构:
DIBT
原始信息汇总

数据集概述

数据集名称

  • 名称: MPEP_MALAGASY

数据集创建工具

  • 创建工具: Argilla

数据集大小

  • 大小: n<1K

数据集标签

  • 标签:
    • rlfh
    • argilla
    • human-feedback

数据集加载方式

  • Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_MALAGASY")

  • datasets库加载: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_MALAGASY")

数据集内容

  • 配置文件: argilla.yaml,用于配置数据集。
  • 数据记录格式: 兼容HuggingFace datasets
  • 注释指南: 如有定义,位于注释指南部分。

数据集结构

  • 数据元素:
    • 字段: 仅支持文本字段。
      • 示例字段:
        • 名称: source
        • 标题: Source
        • 类型: text
        • 必需: True
        • Markdown支持: True
    • 问题: 多种类型,如评分、文本、标签选择等。
      • 示例问题:
        • 名称: target
        • 标题: Target
        • 类型: text
        • 必需: True
        • 描述: Translate the text.
    • 建议: 与问题关联,提供注释辅助。
    • 元数据: 提供额外信息,如来源、作者等。
    • 指南: 提供注释指导。

数据集实例

  • 示例数据: json { "external_id": "944", "fields": { "source": "..." }, "metadata": { "kind": "human", "source": "ewof/sharegpt-instruct-unfiltered-deduped" }, "responses": [ { "status": "submitted", "user_id": "...", "values": { "target": { "value": "..." } } } ], "suggestions": [ { "question_name": "target", "value": "..." } ], "vectors": {} }

数据集使用场景

  • 支持任务: 可用于多种NLP任务,具体取决于配置。
  • 无排行榜: 该数据集无相关排行榜。

数据集语言

  • 语言信息: 待补充。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作