five

vinay876/datasets1

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/vinay876/datasets1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。数据集可以用于不同的NLP任务,具体取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签值为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。

该数据集是通过Argilla创建的,包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据和注释指南。数据集可以用于不同的NLP任务,具体取决于配置。数据集的记录主要是文本字段,并且包含一个标签选择问题,允许的标签值为[World, Sports, Business, Sci/Tech]。数据集包含一个训练集分割。
提供机构:
vinay876
原始信息汇总

数据集概述

数据集基本信息

  • 名称: datasets1
  • 大小: 1K<n<10K
  • 标签: rlfh, argilla, human-feedback

数据集描述

  • 配置文件: 包含一个名为argilla.yaml的配置文件,符合Argilla数据集格式。
  • 记录格式: 数据集记录与HuggingFace datasets库兼容,可通过load_dataset方法加载。
  • 标注指南: 若在Argilla中定义,将包含用于构建和整理数据集的标注指南。

加载方式

  • 使用Argilla: 通过安装Argilla并使用以下代码加载数据集: python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("vinay876/datasets1")

  • 使用datasets: 通过安装datasets库并使用以下代码加载数据集: python from datasets import load_dataset ds = load_dataset("vinay876/datasets1")

数据集结构

  • 数据在Argilla中: 数据集包含字段、问题、建议、元数据、向量和指南。
    • 字段: 当前仅支持文本字段。
      • text: 类型为FieldTypes.text,必填。
    • 问题: 包括不同类型的问题,如评分、文本、标签选择、多标签选择或排名。
      • label: 类型为QuestionTypes.label_selection,必填,允许的值为[World, Sports, Business, Sci/Tech]。
    • 建议: 与现有问题关联,提供标注过程中的建议。
    • 元数据: 提供关于数据集记录的额外信息,可选。
    • 指南: 提供给标注者的指导信息,可选。

数据实例

  • Argilla格式: 示例数据包括外部ID、字段、元数据、响应、建议和向量。
  • HuggingFace datasets格式: 示例数据包括外部ID、标签、标签建议、标签建议元数据、元数据和文本。

数据字段

  • 字段: 文本字段。
  • 问题: 标签选择问题。
  • 建议: 标签建议,可选。
  • 元数据: 提供额外信息,可选。
  • 外部ID: 提供外部ID,可选。

数据分割

  • 分割: 仅包含train分割。

数据集创建

  • 标注指南: 将文章分类为四个类别之一。

注意事项

  • 语言: 需要更多信息。
  • 支持的任务和排行榜: 数据集可用于不同的NLP任务,但无相关排行榜。
  • 个人和敏感信息: 需要更多信息。
  • 社会影响、偏见和其他已知限制: 需要更多信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作