DIBT/MPEP_HUNGARIAN

Name: DIBT/MPEP_HUNGARIAN
Creator: DIBT
Published: 2024-04-22 21:04:14
License: 暂无描述

Hugging Face2024-04-22 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/DIBT/MPEP_HUNGARIAN

下载链接

链接失效反馈

官方服务：

资源简介：

MPEP_HUNGARIAN 数据集是一个使用 Argilla 创建的翻译数据集，旨在用于涉及文本翻译的 NLP 任务。它包括一个用于 Argilla 的配置文件、与 HuggingFace 的 `datasets` 库兼容的数据集记录以及注释指南。数据集结构包括字段、问题、建议、元数据、向量和指南。主要字段是 source，包含要翻译的文本，主要问题是 target，要求注释者翻译文本。数据集以单一拆分 train 提供，可以使用 Argilla 或 `datasets` 库加载。

提供机构：

DIBT

原始信息汇总

数据集概述

名称: MPEP_HUNGARIAN

创建工具: Argilla

数据集大小: n<1K

标签:

rlfh
argilla
human-feedback

数据集描述

配置文件: 包含一个名为argilla.yaml的配置文件，符合Argilla数据集格式。
数据记录: 与HuggingFace datasets兼容的格式。
注释指南: 如有定义，可在注释指南部分找到。

加载方式

使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_HUNGARIAN")
使用datasets加载: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_HUNGARIAN")

数据集结构

字段: 目前仅支持文本字段，如source。
问题: 如target，类型为文本，描述为“Translate the text.”。
建议: 与问题关联的建议，如target-suggestion。
元数据: 提供额外信息的字典，如metadata。
外部ID: 如external_id，用于提供外部资源链接。

数据实例

示例: 包含external_id, fields, metadata, responses, suggestions, vectors等字段。

数据字段

字段: source (文本)
问题: target (文本)
建议: target-suggestion (文本)
元数据: 提供额外信息，如metadata。
外部ID: 提供外部资源链接，如external_id。

数据分割

分割: 仅包含train分割。

数据集创建

注释指南: 翻译文本字段中的文本。

使用数据注意事项

社会影响: [未提供]
偏见讨论: [未提供]
其他已知限制: [未提供]

5,000+

优质数据集

54 个

任务类型

进入经典数据集