DIBT/MPEP_RUSSIAN
收藏Hugging Face2024-07-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/DIBT/MPEP_RUSSIAN
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Multilingual Prompt Evaluation Project: Russian,主要用于俄语的文本生成和文本分类任务。数据集通过Argilla工具创建,包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。字段是数据集记录本身,问题是对注释者提出的问题,建议是帮助注释者进行注释的推荐内容,元数据提供了关于数据集记录的额外信息,注释指南则提供了注释的说明。
This dataset, named Multilingual Prompt Evaluation Project: Russian, is primarily used for text generation and text classification tasks in Russian. The dataset was created using the Argilla tool and includes a configuration file `argilla.yaml` that conforms to the Argilla dataset format, as well as records compatible with the HuggingFace `datasets` library. The dataset structure includes fields, questions, suggestions, metadata, and annotation guidelines. Fields are the dataset records themselves, questions are posed to annotators, suggestions are recommendations to assist annotators during the annotation process, metadata provides additional information about the dataset records, and annotation guidelines offer instructions for annotators.
提供机构:
DIBT
原始信息汇总
数据集概述
基本信息
- 数据集名称: Multilingual Prompt Evaluation Project: Russian
- 数据集大小: 小于1000条记录
- 语言: 俄语 (ru)
- 任务类别: 文本生成, 文本分类
- 标签: rlfh, argilla, human-feedback
数据集内容
- 配置文件: 包含一个符合Argilla数据集格式的配置文件
argilla.yaml。 - 数据记录: 数据记录格式兼容HuggingFace
datasets,可通过FeedbackDataset.from_huggingface方法自动加载。 - 注释指南: 包含用于构建和策划数据集的注释指南,如果已在Argilla中定义。
加载方式
- 使用Argilla加载: 通过安装Argilla (
pip install argilla --upgrade) 并使用提供的代码片段加载数据集。 - 使用
datasets加载: 通过安装datasets(pip install datasets --upgrade) 并使用提供的代码片段加载数据集。
数据结构
- 数据在Argilla中的结构: 包括字段、问题、建议、元数据、向量和指南。
- 字段: 当前仅支持文本字段,用于提供对问题的响应。
- 问题: 向注释者提出的问题,类型包括评分、文本、标签选择等。
- 建议: 与问题关联的人工或机器生成的建议,辅助注释过程。
- 元数据: 提供关于数据集记录的额外信息,如来源、作者等。
- 指南: 提供给注释者的指导信息。
示例数据记录
json { "external_id": "165", "fields": { "source": "..." }, "metadata": { "evolved_from": null, "kind": "synthetic", "source": "ultrachat" }, "responses": [ { "status": "discarded", "user_id": "...", "values": { "target": { "value": "..." } } }, { "status": "submitted", "user_id": "...", "values": { "target": { "value": "..." } } } ], "suggestions": [ { "agent": null, "question_name": "target", "score": null, "type": null, "value": "..." } ], "vectors": {} }



