five

vinay876/dataset4

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/vinay876/dataset4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和指南。数据集主要用于NLP任务,但具体任务取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。

该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和指南。数据集主要用于NLP任务,但具体任务取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。
提供机构:
vinay876
原始信息汇总

数据集概述

数据集名称

  • 名称: dataset4

数据集大小

  • 大小范围: 1K<n<10K

数据集标签

  • 标签: rlfh, argilla, human-feedback

数据集描述

  • 配置文件: 包含一个名为argilla.yaml的配置文件,符合Argilla数据集格式。
  • 记录格式: 数据集记录与HuggingFace datasets兼容,可通过FeedbackDataset.from_huggingface方法自动加载。
  • 标注指南: 若在Argilla中定义,将提供标注指南

加载方式

  • 使用Argilla加载: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("vinay876/dataset4")

  • 使用datasets加载: python from datasets import load_dataset ds = load_dataset("vinay876/dataset4")

数据集结构

  • 字段: 目前仅支持文本字段。
    • text (文本类型,必填)
  • 问题: 用于标注者的提问,支持多种类型。
    • label (标签选择类型,必填),允许值为[World, Sports, Business, Sci/Tech]
  • 建议: 与问题关联,辅助标注过程。
    • label-suggestion (可选,标签选择类型),允许值同上。
  • 元数据: 提供额外信息,如数据来源等,可选。
  • 外部ID: 可选,用于关联外部资源。

数据实例

  • Argilla格式: json { "external_id": null, "fields": { "text": "示例文本" }, "metadata": {}, "responses": [], "suggestions": [], "vectors": {} }

  • HuggingFace datasets格式: json { "external_id": null, "label": [], "label-suggestion": null, "label-suggestion-metadata": { "agent": null, "score": null, "type": null }, "metadata": "{}", "text": "示例文本" }

数据集创建

  • 标注指南: 将文章分类到四个类别之一。

数据集使用注意事项

  • 无领导板关联。
  • 语言信息: 待补充。
  • 数据分割: 仅包含train分割。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作