five

Weni/Zeroshot_Train-20K_other_tweet-format

收藏
Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Weni/Zeroshot_Train-20K_other_tweet-format
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Zeroshot_Train-20K_other_tweet-format,用于训练Zeroshot模型,包含20,000条数据,格式为提示格式,专门用于训练巴西葡萄牙语中的other类别。数据集分为三部分:6,000条数据为不包含目标类别的提示,7,000条数据为包含目标类别但不正确的提示,7,000条数据为包含目标类别且正确的提示。数据集的特征包括source_text和target_text,均为字符串类型,数据集大小为4,369,715字节,包含20,000个示例。
提供机构:
Weni
原始信息汇总

数据集卡片 "Zeroshot_Train-20K_other_tweet-format"

概述

  • 数据集名称: Zeroshot_Train-20K_other_tweet-format
  • 数据集类型: 训练数据集
  • 数据量: 20,000条数据
  • 语言: 巴西葡萄牙语 (pt)
  • 数据格式: 提示格式,专为训练带有other类别的零样本模型设计

数据集结构

  • 特征:
    • source_text: 字符串类型
    • target_text: 字符串类型
  • 分割:
    • train: 4,369,715字节,20,000个样本

数据集大小

  • 下载大小: 1,752,054字节
  • 数据集大小: 4,369,715字节

任务类别

  • 零样本分类

数据集划分

  • 6,000条数据: 提示包含类别选项,但不包含目标类别(other)
  • 7,000条数据: 提示包含类别选项及目标类别,但目标类别不正确
  • 7,000条数据: 提示包含类别选项及目标类别,目标类别正确

提示格式

"Classifique o tweet entre classe1, classe2, classe3, classe4, other \n\nTweet: frase \n\nLabel: other

加载和使用

python from datasets import load_dataset dataset = load_dataset("Weni/Zeroshot_Train-20K_other_tweet-format") dataset

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作