Weni/Zeroshot_Train-20K_other_tweet-format
收藏Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Weni/Zeroshot_Train-20K_other_tweet-format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Zeroshot_Train-20K_other_tweet-format,用于训练Zeroshot模型,包含20,000条数据,格式为提示格式,专门用于训练巴西葡萄牙语中的other类别。数据集分为三部分:6,000条数据为不包含目标类别的提示,7,000条数据为包含目标类别但不正确的提示,7,000条数据为包含目标类别且正确的提示。数据集的特征包括source_text和target_text,均为字符串类型,数据集大小为4,369,715字节,包含20,000个示例。
提供机构:
Weni
原始信息汇总
数据集卡片 "Zeroshot_Train-20K_other_tweet-format"
概述
- 数据集名称: Zeroshot_Train-20K_other_tweet-format
- 数据集类型: 训练数据集
- 数据量: 20,000条数据
- 语言: 巴西葡萄牙语 (pt)
- 数据格式: 提示格式,专为训练带有other类别的零样本模型设计
数据集结构
- 特征:
source_text: 字符串类型target_text: 字符串类型
- 分割:
train: 4,369,715字节,20,000个样本
数据集大小
- 下载大小: 1,752,054字节
- 数据集大小: 4,369,715字节
任务类别
- 零样本分类
数据集划分
- 6,000条数据: 提示包含类别选项,但不包含目标类别(other)
- 7,000条数据: 提示包含类别选项及目标类别,但目标类别不正确
- 7,000条数据: 提示包含类别选项及目标类别,目标类别正确
提示格式
"Classifique o tweet entre classe1, classe2, classe3, classe4, other \n\nTweet: frase \n\nLabel: other
加载和使用
python from datasets import load_dataset dataset = load_dataset("Weni/Zeroshot_Train-20K_other_tweet-format") dataset



