five

thanakritbright/PTH_DATA

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/thanakritbright/PTH_DATA
下载链接
链接失效反馈
官方服务:
资源简介:
Wisesight情感语料库:包含泰语社交媒体消息,带有情感类别(积极、中性、消极、问题)。该数据集在Creative Commons Zero v1.0 Universal许可下发布,包含26,737条消息,主要涉及消费品和服务领域(如餐厅、化妆品、饮料、汽车、酒店),以及一些时事内容。数据时间跨度为2016年至2019年初,风格为非正式和对话式,包含一些新闻标题和广告。数据集经过隐私处理,去除了个人数据,保留了拼写错误和符号,移除了超过2000个字符的消息和非泰语消息。

Wisesight情感语料库:包含泰语社交媒体消息,带有情感类别(积极、中性、消极、问题)。该数据集在Creative Commons Zero v1.0 Universal许可下发布,包含26,737条消息,主要涉及消费品和服务领域(如餐厅、化妆品、饮料、汽车、酒店),以及一些时事内容。数据时间跨度为2016年至2019年初,风格为非正式和对话式,包含一些新闻标题和广告。数据集经过隐私处理,去除了个人数据,保留了拼写错误和符号,移除了超过2000个字符的消息和非泰语消息。
提供机构:
thanakritbright
原始信息汇总

数据集概述

名称: Wisesight Sentiment Corpus

描述: 包含26,737条泰语社交媒体消息,每条消息带有情感类别标签(积极、中性、消极、疑问)。

语言: 中央泰语

风格: 非正式和对话式,包含部分新闻标题和广告。

时间范围: 大约2016年至2019年初,少量来自其他时期。

领域: 混合,主要涉及消费者产品和服务(餐厅、化妆品、饮料、汽车、酒店),以及一些时事。

隐私政策:

  • 仅包含互联网上公开可访问的消息(网站、博客、社交网络站点)。
  • 对于Facebook,仅包括公共页面上所有人可见的评论。
  • 不包括私密/受保护的消息以及群组、聊天和收件箱中的消息。

数据处理:

  • 不统计代表语言注册中的任何内容。
  • 大量消息未经原始形式处理,个人数据被移除或屏蔽。
  • 移除了重复、前导和尾随空格,其他标点符号、符号和表情保持不变。
  • 拼写错误保持不变。
  • 移除了超过2,000个字符的消息和非泰语的长消息。
  • 移除了重复的消息(完全匹配)。

类别标签:

  • "pos": 0 (积极)
  • "neu": 1 (中性)
  • "neg": 2 (消极)
  • "q": 3 (疑问)

数据集结构:

  • 训练集: train.jsonl
  • 验证集: valid.jsonl
  • 测试集: test.jsonl

引用:

@software{bact_2019_3457447, author = {Suriyawongkul, Arthit and Chuangsuwanich, Ekapol and Chormai, Pattarawat and Polpanumas, Charin}, title = {PyThaiNLP/wisesight-sentiment: First release}, month = sep, year = 2019, publisher = {Zenodo}, version = {v1.0}, doi = {10.5281/zenodo.3457447}, url = {https://doi.org/10.5281/zenodo.3457447} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作