five

DIBT/MPEP_HUNGARIAN

收藏
Hugging Face2024-04-22 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_HUNGARIAN
下载链接
链接失效反馈
官方服务:
资源简介:
MPEP_HUNGARIAN 数据集是一个使用 Argilla 创建的翻译数据集,旨在用于涉及文本翻译的 NLP 任务。它包括一个用于 Argilla 的配置文件、与 HuggingFace 的 `datasets` 库兼容的数据集记录以及注释指南。数据集结构包括字段、问题、建议、元数据、向量和指南。主要字段是 source,包含要翻译的文本,主要问题是 target,要求注释者翻译文本。数据集以单一拆分 train 提供,可以使用 Argilla 或 `datasets` 库加载。
提供机构:
DIBT
原始信息汇总

数据集概述

名称: MPEP_HUNGARIAN

创建工具: Argilla

数据集大小: n<1K

标签:

  • rlfh
  • argilla
  • human-feedback

数据集描述

  • 配置文件: 包含一个名为argilla.yaml的配置文件,符合Argilla数据集格式。
  • 数据记录: 与HuggingFace datasets兼容的格式。
  • 注释指南: 如有定义,可在注释指南部分找到。

加载方式

  • 使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_HUNGARIAN")

  • 使用datasets加载: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_HUNGARIAN")

数据集结构

  • 字段: 目前仅支持文本字段,如source
  • 问题: 如target,类型为文本,描述为“Translate the text.”。
  • 建议: 与问题关联的建议,如target-suggestion
  • 元数据: 提供额外信息的字典,如metadata
  • 外部ID: 如external_id,用于提供外部资源链接。

数据实例

  • 示例: 包含external_id, fields, metadata, responses, suggestions, vectors等字段。

数据字段

  • 字段: source (文本)
  • 问题: target (文本)
  • 建议: target-suggestion (文本)
  • 元数据: 提供额外信息,如metadata
  • 外部ID: 提供外部资源链接,如external_id

数据分割

  • 分割: 仅包含train分割。

数据集创建

  • 注释指南: 翻译文本字段中的文本。

使用数据注意事项

  • 社会影响: [未提供]
  • 偏见讨论: [未提供]
  • 其他已知限制: [未提供]
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作