DIBT/MPEP_CZECH
收藏Hugging Face2024-06-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_CZECH
下载链接
链接失效反馈官方服务:
资源简介:
MPEP_CZECH数据集是通过Argilla工具创建的,包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集可以用于多种NLP任务,具体取决于配置。数据集结构包括字段、问题、建议、元数据和指南。数据集的一个实例展示了如何将文本从英语翻译成捷克语。数据集包含一个`train`分割。
提供机构:
DIBT
原始信息汇总
数据集概述
名称: MPEP_CZECH
大小: 小于1000条记录
标签:
- rlfh
- argilla
- human-feedback
创建工具: Argilla
数据集内容
- 配置文件: 包含一个名为
argilla.yaml的配置文件,用于配置数据集。 - 数据记录: 与HuggingFace
datasets兼容的记录格式。 - 标注指南: 提供翻译文本的指南,如果已在Argilla中定义。
加载方式
- 使用Argilla: 通过安装Argilla并使用
FeedbackDataset.from_huggingface方法加载数据集。 - 使用
datasets库: 通过安装datasets库并使用load_dataset方法加载数据集。
数据集结构
- 字段: 目前仅支持文本字段,如
source。 - 问题: 包括不同类型的问题,如
target,用于翻译文本。 - 建议: 提供与问题关联的建议,如
target-suggestion。 - 元数据: 提供额外信息,如数据来源。
- 指南: 提供标注指导。
数据实例
- 示例: 展示如何在Argilla和HuggingFace
datasets中表示数据实例。
数据字段
- 字段:
source,文本类型。 - 问题:
target,文本类型,用于翻译文本。 - 建议:
target-suggestion,文本类型,可选。 - 元数据: 提供额外信息,可选。
- 外部ID: 提供外部ID,可选。
数据分割
- 分割: 仅包含训练集。
使用考虑
- 任务支持: 可用于多种NLP任务,具体取决于配置。
- 无排行榜: 该数据集没有关联的排行榜。



