DIBT/MPEP_HUNGARIAN
收藏Hugging Face2024-04-22 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_HUNGARIAN
下载链接
链接失效反馈官方服务:
资源简介:
MPEP_HUNGARIAN 数据集是一个使用 Argilla 创建的翻译数据集,旨在用于涉及文本翻译的 NLP 任务。它包括一个用于 Argilla 的配置文件、与 HuggingFace 的 `datasets` 库兼容的数据集记录以及注释指南。数据集结构包括字段、问题、建议、元数据、向量和指南。主要字段是 source,包含要翻译的文本,主要问题是 target,要求注释者翻译文本。数据集以单一拆分 train 提供,可以使用 Argilla 或 `datasets` 库加载。
提供机构:
DIBT
原始信息汇总
数据集概述
名称: MPEP_HUNGARIAN
创建工具: Argilla
数据集大小: n<1K
标签:
- rlfh
- argilla
- human-feedback
数据集描述
- 配置文件: 包含一个名为
argilla.yaml的配置文件,符合Argilla数据集格式。 - 数据记录: 与HuggingFace
datasets兼容的格式。 - 注释指南: 如有定义,可在注释指南部分找到。
加载方式
-
使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("DIBT/MPEP_HUNGARIAN")
-
使用
datasets加载: python from datasets import load_dataset ds = load_dataset("DIBT/MPEP_HUNGARIAN")
数据集结构
- 字段: 目前仅支持文本字段,如
source。 - 问题: 如
target,类型为文本,描述为“Translate the text.”。 - 建议: 与问题关联的建议,如
target-suggestion。 - 元数据: 提供额外信息的字典,如
metadata。 - 外部ID: 如
external_id,用于提供外部资源链接。
数据实例
- 示例: 包含
external_id,fields,metadata,responses,suggestions,vectors等字段。
数据字段
- 字段:
source(文本) - 问题:
target(文本) - 建议:
target-suggestion(文本) - 元数据: 提供额外信息,如
metadata。 - 外部ID: 提供外部资源链接,如
external_id。
数据分割
- 分割: 仅包含
train分割。
数据集创建
- 注释指南: 翻译文本字段中的文本。
使用数据注意事项
- 社会影响: [未提供]
- 偏见讨论: [未提供]
- 其他已知限制: [未提供]



