five

eduagarcia/tweetsentbr_fewshot

收藏
Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/tweetsentbr_fewshot
下载链接
链接失效反馈
官方服务:
资源简介:
TweetSentBR是一个巴西葡萄牙语的推文语料库,用于情感分析任务。每个推文被标注为以下三种类别之一:正面(用户对帖子主题表达了积极的反应或评价)、负面(用户对帖子主题表达了消极的反应或评价)、中性(不属于前两类的推文,通常不表达观点、离题、无关、混乱或仅包含客观数据)。该数据集是tweetSentBR的一个子集,包含75个训练样本和2000多个测试样本,用于评估葡萄牙语语言模型在少样本设置下的性能。完整的数据集包含15000多个标注的推文。

TweetSentBR是一个巴西葡萄牙语的推文语料库,用于情感分析任务。每个推文被标注为以下三种类别之一:正面(用户对帖子主题表达了积极的反应或评价)、负面(用户对帖子主题表达了消极的反应或评价)、中性(不属于前两类的推文,通常不表达观点、离题、无关、混乱或仅包含客观数据)。该数据集是tweetSentBR的一个子集,包含75个训练样本和2000多个测试样本,用于评估葡萄牙语语言模型在少样本设置下的性能。完整的数据集包含15000多个标注的推文。
提供机构:
eduagarcia
原始信息汇总

数据集概述

基本信息

  • 语言: 葡萄牙语 (pt)
  • 大小分类: 1K<n<10K
  • 任务分类: 文本分类

数据集特征

  • id: 整数类型 (int64)
  • sentence: 字符串类型 (string)
  • label: 字符串类型 (string)

数据集划分

  • 训练集: 75个样本,占用空间6830字节
  • 测试集: 2010个样本,占用空间178392字节

下载与数据集大小

  • 下载大小: 117996字节
  • 数据集大小: 185222字节

配置

  • 默认配置:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*

数据集描述

  • 内容: TweetSentBR是一个巴西葡萄牙语的推文语料库,用于情感分析任务。每个推文被标注为以下三种类别之一:
    • Positive: 用户对帖子主题有积极反应或评价的推文
    • Negative: 用户对帖子主题有消极反应或评价的推文
    • Neutral: 不属于前两类的推文,通常不表达观点或无关紧要

引用信息

bibtex @InProceedings{BRUM18.389, author = {Henrico Brum and Maria das Grac{c}as Volpe Nunes}, title = "{Building a Sentiment Corpus of Tweets in Brazilian Portuguese}", booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {May 7-12, 2018}, address = {Miyazaki, Japan}, editor = {Nicoletta Calzolari (Conference chair) and Khalid Choukri and Christopher Cieri and Thierry Declerck and Sara Goggi and Koiti Hasida and Hitoshi Isahara and Bente Maegaard and Joseph Mariani and HÚlŔne Mazo and Asuncion Moreno and Jan Odijk and Stelios Piperidis and Takenobu Tokunaga}, publisher = {European Language Resources Association (ELRA)}, isbn = {979-10-95546-00-9}, language = {english} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作