five

DIBT/MPEP_SWAHILI

收藏
Hugging Face2024-06-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_SWAHILI
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集可以用于不同的NLP任务,具体取决于配置。数据集结构包括字段、问题、建议、元数据和指南。数据集的一个实例展示了如何将文本从英语翻译成斯瓦希里语。数据集包含一个单独的`train`分割。

该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集可以用于不同的NLP任务,具体取决于配置。数据集结构包括字段、问题、建议、元数据和指南。数据集的一个实例展示了如何将文本从英语翻译成斯瓦希里语。数据集包含一个单独的`train`分割。
提供机构:
DIBT
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: MPEP_SWAHILI
  • 数据集大小: n<1K
  • 标签:
    • rlfh
    • argilla
    • human-feedback

数据集描述

数据集内容

  • 配置文件: 包含一个名为argilla.yaml的配置文件,用于配置数据集。
  • 数据记录: 数据记录格式兼容HuggingFace datasets,可通过FeedbackDataset.from_huggingfacedatasets库的load_dataset方法加载。
  • 标注指南: 若在Argilla中定义,将提供用于构建和整理数据集的标注指南。

数据集加载

  • 使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_SWAHILI")

  • 使用datasets加载: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_SWAHILI")

数据集结构

  • 数据在Argilla中:

    • 字段: 当前仅支持文本字段,如source
    • 问题: 包括多种类型,如target,用于翻译文本。
    • 建议: 与问题关联,辅助标注者。
    • 元数据: 提供额外信息,如数据来源。
    • 指南: 提供标注指导。
  • 数据实例:

    • Argilla格式与HuggingFace datasets格式展示。

数据字段

  • 字段:
    • source: 文本类型,必填。
  • 问题:
    • target: 文本类型,必填,用于翻译文本。
  • 建议:
    • target-suggestion: 文本类型,可选。
  • 元数据: 可选,提供额外信息。
  • external_id: 可选,用于外部ID。

数据分割

  • 分割: 仅包含train分割。

数据集创建

标注指南

  • 翻译任务: 要求翻译文本字段中的内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作