five

nataliaElv/setfit_tutorial

收藏
Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nataliaElv/setfit_tutorial
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据、向量和注释指南。数据集可以用于不同的NLP任务,具体取决于配置。数据集的加载可以通过Argilla或`datasets`库完成。

该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及与HuggingFace `datasets`库兼容的记录。数据集的结构包括字段、问题、建议、元数据、向量和注释指南。数据集可以用于不同的NLP任务,具体取决于配置。数据集的加载可以通过Argilla或`datasets`库完成。
提供机构:
nataliaElv
原始信息汇总

数据集概述

  • 名称: setfit_tutorial
  • 大小: 1K<n<10K
  • 标签: rlfh, argilla, human-feedback
  • 创建工具: Argilla

数据集内容

  • 配置文件: argilla.yaml,符合Argilla数据集格式。
  • 数据记录: 与HuggingFace datasets兼容的格式。
  • 加载方式:
    • Argilla: 使用pip install argilla --upgrade后,通过rg.FeedbackDataset.from_huggingface("nataliaElv/setfit_tutorial")加载。
    • datasets: 使用pip install datasets --upgrade后,通过load_dataset("nataliaElv/setfit_tutorial")加载。

数据集结构

  • 字段: 目前仅支持文本字段。
    • text: 类型为TextField
  • 问题: 多种类型,如RatingQuestion, TextQuestion, LabelQuestion, MultiLabelQuestion, RankingQuestion
    • topics: 类型为MultiLabelQuestion,允许值包括多种金融相关的操作和状态。
    • sentiment: 类型为LabelQuestion,允许值为[positive, neutral, negative]。
  • 建议: 自Argilla 1.13.0起,提供与问题关联的建议,以辅助标注过程。
    • topics-suggestion: 类型为multi_label_selection
    • sentiment-suggestion: 类型为label_selection
  • 外部ID: 可选字段,用于提供数据记录的外部标识。

数据实例

  • Argilla格式: 包含text字段和suggestions
  • HuggingFace datasets格式: 包含text字段和扩展的suggestions信息。

数据分割

  • 分割: 仅包含train分割。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作