davanstrien/haiku-kto-raw-argilla
收藏Hugging Face2024-03-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/haiku-kto-raw-argilla
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为haiku-kto-raw-argilla,使用Argilla创建。数据集包含符合Argilla数据集格式的配置文件、与HuggingFace datasets兼容的记录以及标注指南。它支持多种NLP任务,结构包括字段、问题、建议、元数据、向量和指南。数据集适用于文本分类等任务,包含prompt和completion等字段,以及供标注者使用的label问题,用于将俳句分类为是或否。该数据集可通过Argilla或直接使用datasets库加载。
该数据集名为haiku-kto-raw-argilla,使用Argilla创建。数据集包含符合Argilla数据集格式的配置文件、与HuggingFace datasets兼容的记录以及标注指南。它支持多种NLP任务,结构包括字段、问题、建议、元数据、向量和指南。数据集适用于文本分类等任务,包含prompt和completion等字段,以及供标注者使用的label问题,用于将俳句分类为是或否。该数据集可通过Argilla或直接使用datasets库加载。
提供机构:
davanstrien
原始信息汇总
数据集概述
数据集名称
- 名称: haiku-kto-raw-argilla
数据集大小
- 大小: 1K<n<10K
标签
- 标签: rlfh, argilla, human-feedback
数据集描述
- 配置文件: 包含一个名为
argilla.yaml的配置文件,符合Argilla数据集格式。 - 记录格式: 与HuggingFace
datasets兼容的记录格式。 - 标注指南: 如果已在Argilla中定义,则包含标注指南。
数据集加载
- 使用Argilla加载: 通过
pip install argilla --upgrade安装Argilla后,使用rg.FeedbackDataset.from_huggingface("davanstrien/haiku-kto-raw-argilla")加载数据集。 - 使用
datasets加载: 通过pip install datasets --upgrade安装datasets后,使用load_dataset("davanstrien/haiku-kto-raw-argilla")加载数据集。
数据集结构
- 字段: 目前仅支持文本字段,包括
prompt和completion。 - 问题: 包括
label问题,类型为label_selection,选项为[Yes, No]。 - 建议: 与问题关联的建议,如
label-suggestion,类型为label_selection,选项为[Yes, No]。 - 元数据: 可选,用于提供额外信息,如
generation_model和prompt。 - 外部ID: 可选,用于外部资源链接。
数据实例
- Argilla格式: 包含
prompt和completion字段,以及可选的元数据。 - HuggingFace
datasets格式: 包含completion,external_id,label,label-suggestion,label-suggestion-metadata,metadata,prompt字段。
数据分割
- 分割: 仅包含
train分割。
标注指南
- 问题: "Do you like this haiku?"
- 选项: "Yes" 或 "No"
- 评估方式: 仅基于感受的评估。



