pythainlp/wisesight_sentiment

Name: pythainlp/wisesight_sentiment
Creator: pythainlp
Published: 2024-07-19 17:13:12
License: 暂无描述

Hugging Face2024-07-19 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/pythainlp/wisesight_sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

Wisesight Sentiment数据集是一个用于情感分析的泰语社交媒体消息数据集。数据集包含了26,737条消息，每条消息都被标记为正面（pos）、中性（neu）、负面（neg）或问题（q）。数据集的语言为泰语，风格为非正式和对话式，包含一些新闻标题和广告。数据集的时间跨度为2016年到2019年初，主要涉及消费品和服务领域。数据集经过了隐私处理，移除了个人数据，并删除了重复消息和过长的非泰语消息。数据集由专家生成，并公开发布在Creative Commons Zero v1.0 Universal许可证下。

提供机构：

pythainlp

原始信息汇总

数据集概述

名称: WisesightSentiment
语言: 泰语（Central Thai）
许可证: CC0-1.0
多语言性: 单语种
大小: 26,737条消息，数据集总大小为6,584,526字节
任务类别: 文本分类
任务ID: 情感分类
数据集结构:
- 特征:
  - texts: 文本内容，数据类型为字符串
  - category: 文本情感类别，包括pos(正向; 0), neu(中性; 1), neg(负向; 2), q(问题; 3)
- 数据分割:
  - 训练集: 21,628样本
  - 验证集: 2,404样本
  - 测试集: 2,671样本
数据来源: 原始数据，来自泰国的社交媒体用户
注释过程: 由外包的注释者进行情感标注
数据集创建理由: 最初为Chulalongkorn大学的Kaggle课堂竞赛设计，现已成为泰语情感分析的基准之一

数据集详细信息

数据实例:

{category: pos, texts: น่าสนนน} {category: neu, texts: ครับ #phithanbkk} {category: neg, texts: ซื้อแต่ผ้าอนามัยแบบเย็นมาค่ะ แบบว่าอีห่ากูนอนไม่ได้} {category: q, texts: มีแอลกอฮอลมั้ยคะ}
数据字段:
- texts: 文本内容
- category: 情感类别，包括正向、中性、负向和问题

数据分割详情:

分割	样本数	中性	负向	正向	问题	平均单词数	平均字符数
训练	21628	11795	5491	3866	476	27.21	89.82
验证	2404	1291	637	434	42	27.18	89.50
测试	2671	1453	683	478	57	27.12	90.36

注释详情:
- 情感值由人工注释者分配
- 注释者尽力为每条消息分配一个标签，从四个选项中选择
- 注释基于文本内容，不考虑额外的上下文信息
使用数据集的考虑因素:
- 数据集标签不平衡，中性文本占多数，问题类文本较少
- 社交媒体文本中的拼写错误可能影响泰语的词条分割，进而影响模型性能

数据集创建和注释

源数据: 来自泰国的社交媒体用户
注释者: 外包注释者，由Wisesight (Thailand) Co., Ltd.协助
个人和敏感信息处理: 已尝试排除个人识别信息，用户名和电话号码等已移除或屏蔽

其他信息

数据集维护者: PyThaiNLP社区、Kitsuchart Pasupa和Ekapol Chuangsuwanich
许可证信息: 注释数据（标签）已发布到公共领域，每个消息内容的版权属于原始发布者
引用信息: 如使用此数据集，请引用Arthit Suriyawongkul等人的工作，发布于2019年9月

搜集汇总

数据集介绍

构建方式

在泰语自然语言处理领域，情感分析数据集的构建需兼顾语言特性与数据质量。Wisesight Sentiment数据集源自泰国社交媒体公开文本，涵盖2016年至2019年间的用户生成内容，领域集中于消费品与服务。数据收集严格遵循隐私保护原则，仅纳入公开可访问的评论，并移除用户名、电话号码等个人标识信息。文本经过规范化处理，保留原始拼写、标点与表情符号，同时剔除过长或重复条目，最终由专业标注人员依据统一准则进行四类情感标注，确保数据的一致性与可靠性。

特点

该数据集以泰语社交媒体文本为核心，呈现鲜明的语言与结构特征。其文本风格多为非正式口语表达，涵盖消费评价、时事讨论等多类主题，平均字符长度约90字，贴近真实社交语境。标注体系包含积极、中性、消极与疑问四类情感标签，其中中性标签占比最高，反映了社交媒体文本的常见分布。数据规模达两万六千余条，划分为训练、验证与测试集，支持模型性能的稳健评估。作为泰语情感分析领域的重要基准，该数据集为研究非拉丁语系语言处理提供了关键资源。

使用方法

该数据集适用于泰语文本情感分类任务，可直接通过HuggingFace平台加载使用。研究人员可利用预划分的训练集进行模型训练，验证集进行超参数调优，测试集则用于评估模型在准确率、F1分数等指标上的性能。数据字段包含文本内容与情感类别标签，支持多种机器学习框架的接入。鉴于数据存在类别不均衡与拼写变异等特点，建议采用适当的文本预处理或数据增强策略。该数据集亦关联Kaggle竞赛平台，为算法比较与性能优化提供公开基准。

背景与挑战

背景概述

在自然语言处理领域，泰语等低资源语言的情感分析研究长期面临数据稀缺的困境。Wisesight Sentiment数据集由泰国朱拉隆功大学工程学院的Ekapol Chuangsuwanich教授于2019年主导创建，并得到PyThaiNLP社区及Wisesight（泰国）有限公司的协作支持。该数据集旨在构建首个面向泰语社交媒体文本的开放式情感分析基准，其核心研究问题聚焦于解决泰语非正式文本在情感极性分类中的语义理解难题。通过收录2016年至2019年间约2.6万条涵盖消费产品、时事等多元领域的公开社交媒体文本，并标注积极、消极、中性与疑问四类情感标签，该资源显著推动了泰语自然语言处理技术在舆情分析、商业智能等应用场景的发展。

当前挑战

该数据集所针对的泰语社交媒体情感分析任务，面临多重技术挑战：泰语作为孤立语系语言，其连续书写特性与复杂形态结构导致传统分词方法失效，而社交媒体文本中普遍存在的拼写变异、俚语及表情符号进一步加剧了语义消歧的难度。在数据构建层面，挑战主要体现在两方面：其一，原始文本来自公开网络平台，需在保留语言自然性的同时严格脱敏，通过掩码电话号码、删除用户名等方式平衡数据效用与隐私保护；其二，标注过程中存在固有主观性，部分文本因语境缺失导致标注依赖人工推断，且四类情感标签分布高度不均衡，中性样本占比过半而疑问类样本稀缺，可能影响模型对少数类的识别性能。

常用场景

经典使用场景

在泰语自然语言处理领域，社交媒体情感分析是理解用户意见与市场动态的关键环节。Wisesight Sentiment数据集以其涵盖正面、中性、负面及疑问四类情感标签的泰语社交媒体文本，成为该领域基准评测的核心资源。研究者通常利用该数据集训练和验证情感分类模型，评估模型在非正式、口语化泰语文本上的性能，尤其在处理拼写变异、表情符号及领域混合内容时展现其独特价值。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，包括在Kaggle竞赛中涌现的各类高效分类模型，以及后续学术研究中针对泰语文本特征的预训练语言模型优化。这些工作不仅提升了泰语情感分析的技术水平，还推动了PyThaiNLP等开源工具库的生态发展。部分研究进一步探索了数据增强、多任务学习等策略，以缓解数据不平衡问题，拓展了低资源语言处理的方法论边界。

数据集最近研究