vinay876/dataset4
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/vinay876/dataset4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和指南。数据集主要用于NLP任务,但具体任务取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。
该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和指南。数据集主要用于NLP任务,但具体任务取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。
提供机构:
vinay876
原始信息汇总
数据集概述
数据集名称
- 名称: dataset4
数据集大小
- 大小范围: 1K<n<10K
数据集标签
- 标签: rlfh, argilla, human-feedback
数据集描述
- 配置文件: 包含一个名为
argilla.yaml的配置文件,符合Argilla数据集格式。 - 记录格式: 数据集记录与HuggingFace
datasets兼容,可通过FeedbackDataset.from_huggingface方法自动加载。 - 标注指南: 若在Argilla中定义,将提供标注指南。
加载方式
-
使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("vinay876/dataset4")
-
使用
datasets加载: python from datasets import load_dataset ds = load_dataset("vinay876/dataset4")
数据集结构
- 字段: 目前仅支持文本字段。
- text (文本类型,必填)
- 问题: 用于标注者的提问,支持多种类型。
- label (标签选择类型,必填),允许值为[World, Sports, Business, Sci/Tech]
- 建议: 与问题关联,辅助标注过程。
- label-suggestion (可选,标签选择类型),允许值同上。
- 元数据: 提供额外信息,如数据来源等,可选。
- 外部ID: 可选,用于关联外部资源。
数据实例
-
Argilla格式: json { "external_id": null, "fields": { "text": "示例文本" }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }
-
HuggingFace
datasets格式: json { "external_id": null, "label": [], "label-suggestion": null, "label-suggestion-metadata": { "agent": null, "score": null, "type": null }, "metadata": "{}", "text": "示例文本" }
数据集创建
- 标注指南: 将文章分类到四个类别之一。
数据集使用注意事项
- 无领导板关联。
- 语言信息: 待补充。
- 数据分割: 仅包含
train分割。



