five

scaredmeow/shopee-reviews-tl-binary

收藏
Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scaredmeow/shopee-reviews-tl-binary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于文本分类任务,包含Shopee的菲律宾语(tl)评论,评论被标记为正面或负面。数据集包含28000个训练样本和6000个验证和测试样本。每个数据点包括评论文本和对应的标签。

This dataset is primarily used for text classification tasks, containing Shopee's Filipino (tl) reviews labeled as positive or negative. It includes 28,000 training samples, as well as 6,000 validation and test samples. Each data point consists of the review text and its corresponding label.
提供机构:
scaredmeow
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: odc-by
  • 任务类别: 文本分类
  • 语言: tl
  • 标签: 评论, Shopee
  • 数据集大小: 10K<n<100K

数据集结构

  • 特征:
    • text: 字符串类型
    • label: 类别标签,包括 0: negative 和 1: positive

数据集内容

  • 数据实例:

    • 包含文本和对应的标签

    • 示例:

      { label: pos, text: Huyyy ang gandaaaaaaaaaaa. Grabe sobrang ganda talaga wala ako masabi. Complete orders pa pinadala sa akin. Buti hindi nabasag kahit walang bubble wrap. Okay na lang din para save mother earth and at least hindi nabasag hehe. Oorder ulit ako ang ganda eh }

  • 数据字段:

    • text: 评论文本,使用双引号包围,内部的双引号通过两个双引号表示
    • label: 与评论相关的评分,范围从正面到负面

数据分割

  • 训练集: 28000样本
  • 验证集和测试集: 各6000样本

数据集创建

  • 数据集构建:
    • 随机选取14000个训练样本和3000个测试及验证样本,每个评论星级从neg和pos中选取

联系方式

  • 联系人: Neil Riego
  • 邮箱: neilchristianriego3@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作