DIBT/MPEP_ARABIC
收藏Hugging Face2024-07-18 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_ARABIC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Argilla创建的,包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。数据集的主要用途是翻译任务,包含一个文本字段`source`和一个翻译问题`target`。数据集还提供了加载数据集到Argilla和`datasets`库的代码示例。
提供机构:
DIBT
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: MPEP_ARABIC
- 数据集大小: n<1K
- 标签: rlfh, argilla, human-feedback
数据集描述
数据集内容
- 配置文件: 包含一个名为
argilla.yaml的配置文件,符合Argilla数据集格式。 - 数据记录: 格式兼容HuggingFace
datasets,可通过FeedbackDataset.from_huggingface方法自动加载。 - 标注指南: 提供翻译文本的指南。
加载方式
-
使用Argilla加载: 通过安装Argilla并使用以下代码加载数据集: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_ARABIC")
-
使用
datasets库加载: 通过安装datasets库并使用以下代码加载数据集: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_ARABIC")
数据集结构
- 字段: 目前仅支持文本字段。
- source: 文本类型,必需。
- 问题: 向标注者提出的问题,支持多种类型。
- target: 文本类型,必需,描述为“Translate the text.”。
- 建议: 提供给标注者的建议,与问题关联。
- target-suggestion: 文本类型,可选。
- 元数据: 提供额外信息,如数据来源等。
- 外部ID: 可选,用于关联外部资源。
数据分割
- 分割: 仅包含
train分割。
数据集创建
标注指南
- 翻译任务: 要求翻译文本字段中的内容。
数据字段
- 字段: 数据记录本身,目前仅支持文本字段。
- 问题: 向标注者提出的问题,包括文本翻译等。
- 建议: 提供给标注者的辅助信息,与问题关联。
- 元数据: 提供额外信息,如数据来源、类型等。
- 外部ID: 提供外部资源的关联ID。
数据分割
- 分割: 仅包含
train分割。
使用注意事项
- 社会影响: 未提供详细信息。
- 偏见讨论: 未提供详细信息。
- 其他已知限制: 未提供详细信息。



