five

DIBT/MPEP_ARABIC

收藏
Hugging Face2024-07-18 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_ARABIC
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Argilla创建的,包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。数据集的主要用途是翻译任务,包含一个文本字段`source`和一个翻译问题`target`。数据集还提供了加载数据集到Argilla和`datasets`库的代码示例。
提供机构:
DIBT
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: MPEP_ARABIC
  • 数据集大小: n<1K
  • 标签: rlfh, argilla, human-feedback

数据集描述

数据集内容

  • 配置文件: 包含一个名为argilla.yaml的配置文件,符合Argilla数据集格式。
  • 数据记录: 格式兼容HuggingFace datasets,可通过FeedbackDataset.from_huggingface方法自动加载。
  • 标注指南: 提供翻译文本的指南。

加载方式

  • 使用Argilla加载: 通过安装Argilla并使用以下代码加载数据集: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_ARABIC")

  • 使用datasets库加载: 通过安装datasets库并使用以下代码加载数据集: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_ARABIC")

数据集结构

  • 字段: 目前仅支持文本字段。
    • source: 文本类型,必需。
  • 问题: 向标注者提出的问题,支持多种类型。
    • target: 文本类型,必需,描述为“Translate the text.”。
  • 建议: 提供给标注者的建议,与问题关联。
    • target-suggestion: 文本类型,可选。
  • 元数据: 提供额外信息,如数据来源等。
  • 外部ID: 可选,用于关联外部资源。

数据分割

  • 分割: 仅包含train分割。

数据集创建

标注指南

  • 翻译任务: 要求翻译文本字段中的内容。

数据字段

  • 字段: 数据记录本身,目前仅支持文本字段。
  • 问题: 向标注者提出的问题,包括文本翻译等。
  • 建议: 提供给标注者的辅助信息,与问题关联。
  • 元数据: 提供额外信息,如数据来源、类型等。
  • 外部ID: 提供外部资源的关联ID。

数据分割

  • 分割: 仅包含train分割。

使用注意事项

  • 社会影响: 未提供详细信息。
  • 偏见讨论: 未提供详细信息。
  • 其他已知限制: 未提供详细信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作