thanakritbright/PTH_DATA
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/thanakritbright/PTH_DATA
下载链接
链接失效反馈官方服务:
资源简介:
Wisesight情感语料库:包含泰语社交媒体消息,带有情感类别(积极、中性、消极、问题)。该数据集在Creative Commons Zero v1.0 Universal许可下发布,包含26,737条消息,主要涉及消费品和服务领域(如餐厅、化妆品、饮料、汽车、酒店),以及一些时事内容。数据时间跨度为2016年至2019年初,风格为非正式和对话式,包含一些新闻标题和广告。数据集经过隐私处理,去除了个人数据,保留了拼写错误和符号,移除了超过2000个字符的消息和非泰语消息。
Wisesight情感语料库:包含泰语社交媒体消息,带有情感类别(积极、中性、消极、问题)。该数据集在Creative Commons Zero v1.0 Universal许可下发布,包含26,737条消息,主要涉及消费品和服务领域(如餐厅、化妆品、饮料、汽车、酒店),以及一些时事内容。数据时间跨度为2016年至2019年初,风格为非正式和对话式,包含一些新闻标题和广告。数据集经过隐私处理,去除了个人数据,保留了拼写错误和符号,移除了超过2000个字符的消息和非泰语消息。
提供机构:
thanakritbright
原始信息汇总
数据集概述
名称: Wisesight Sentiment Corpus
描述: 包含26,737条泰语社交媒体消息,每条消息带有情感类别标签(积极、中性、消极、疑问)。
语言: 中央泰语
风格: 非正式和对话式,包含部分新闻标题和广告。
时间范围: 大约2016年至2019年初,少量来自其他时期。
领域: 混合,主要涉及消费者产品和服务(餐厅、化妆品、饮料、汽车、酒店),以及一些时事。
隐私政策:
- 仅包含互联网上公开可访问的消息(网站、博客、社交网络站点)。
- 对于Facebook,仅包括公共页面上所有人可见的评论。
- 不包括私密/受保护的消息以及群组、聊天和收件箱中的消息。
数据处理:
- 不统计代表语言注册中的任何内容。
- 大量消息未经原始形式处理,个人数据被移除或屏蔽。
- 移除了重复、前导和尾随空格,其他标点符号、符号和表情保持不变。
- 拼写错误保持不变。
- 移除了超过2,000个字符的消息和非泰语的长消息。
- 移除了重复的消息(完全匹配)。
类别标签:
- "pos": 0 (积极)
- "neu": 1 (中性)
- "neg": 2 (消极)
- "q": 3 (疑问)
数据集结构:
- 训练集:
train.jsonl - 验证集:
valid.jsonl - 测试集:
test.jsonl
引用:
@software{bact_2019_3457447, author = {Suriyawongkul, Arthit and Chuangsuwanich, Ekapol and Chormai, Pattarawat and Polpanumas, Charin}, title = {PyThaiNLP/wisesight-sentiment: First release}, month = sep, year = 2019, publisher = {Zenodo}, version = {v1.0}, doi = {10.5281/zenodo.3457447}, url = {https://doi.org/10.5281/zenodo.3457447} }



