five

DIBT/MPEP_CZECH

收藏
Hugging Face2024-06-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_CZECH
下载链接
链接失效反馈
官方服务:
资源简介:
MPEP_CZECH数据集是通过Argilla工具创建的,包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集可以用于多种NLP任务,具体取决于配置。数据集结构包括字段、问题、建议、元数据和指南。数据集的一个实例展示了如何将文本从英语翻译成捷克语。数据集包含一个`train`分割。
提供机构:
DIBT
原始信息汇总

数据集概述

名称: MPEP_CZECH

大小: 小于1000条记录

标签:

  • rlfh
  • argilla
  • human-feedback

创建工具: Argilla

数据集内容

  • 配置文件: 包含一个名为argilla.yaml的配置文件,用于配置数据集。
  • 数据记录: 与HuggingFace datasets兼容的记录格式。
  • 标注指南: 提供翻译文本的指南,如果已在Argilla中定义。

加载方式

  • 使用Argilla: 通过安装Argilla并使用FeedbackDataset.from_huggingface方法加载数据集。
  • 使用datasets库: 通过安装datasets库并使用load_dataset方法加载数据集。

数据集结构

  • 字段: 目前仅支持文本字段,如source
  • 问题: 包括不同类型的问题,如target,用于翻译文本。
  • 建议: 提供与问题关联的建议,如target-suggestion
  • 元数据: 提供额外信息,如数据来源。
  • 指南: 提供标注指导。

数据实例

  • 示例: 展示如何在Argilla和HuggingFace datasets中表示数据实例。

数据字段

  • 字段: source,文本类型。
  • 问题: target,文本类型,用于翻译文本。
  • 建议: target-suggestion,文本类型,可选。
  • 元数据: 提供额外信息,可选。
  • 外部ID: 提供外部ID,可选。

数据分割

  • 分割: 仅包含训练集。

使用考虑

  • 任务支持: 可用于多种NLP任务,具体取决于配置。
  • 无排行榜: 该数据集没有关联的排行榜。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作