ThaiToxicityTweetCorpus

github2022-02-04 更新2024-05-31 收录

下载链接：

https://github.com/tmu-nlp/ThaiToxicityTweetCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含泰国推文中的毒性内容，每条记录包括标签、毒性/非毒性的标注比例以及推文ID。标签分为毒性和非毒性两类。

This dataset comprises toxic content from Thai tweets, with each record including labels, the proportion of toxic/non-toxic annotations, and the tweet ID. The labels are categorized into toxic and non-toxic.

创建时间：

2018-02-22

原始信息汇总

数据集概述

数据集名称

Toxicity in Thai Tweet Corpus

数据集内容

Annotated Corpus: 每行包含标签、毒性/非毒性注释比例（由3位注释者完成）和推文ID。
- 标签类型：
  - 1: Toxic
  - 0: Non-Toxic
Toxic Keywords: 包含44个用于通过Twitter Search API收集推文的毒性关键词及其含义。

数据集发布

在2018年第二届网络安全和在线安全文本分析研讨会论文集（即将发布）。

许可证

本项目根据Creative Commons Attribution-NonCommercial 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

ThaiToxicityTweetCorpus数据集的构建基于泰语推文，通过Twitter Search API收集包含44个特定毒性关键词的推文。每条推文由三位标注者进行标注，标注结果以毒性/非毒性的比例形式呈现，确保了数据的多样性和标注的准确性。数据集中的每条记录包含标签、标注比例及推文ID，标签分为毒性（1）和非毒性（0）两类。

特点

该数据集的特点在于其专注于泰语社交媒体中的毒性内容，涵盖了44个毒性关键词及其原始含义与毒性含义的对照。通过三位标注者的独立标注，确保了数据的可靠性和一致性。此外，数据集还提供了推文ID，便于用户进一步验证和分析。这些特点使得ThaiToxicityTweetCorpus成为研究泰语社交媒体中毒性内容的宝贵资源。

使用方法

ThaiToxicityTweetCorpus数据集可用于泰语社交媒体中毒性内容的检测与分析。用户可以通过推文ID访问原始推文，结合标注比例和关键词对照表，深入理解毒性内容的表达方式及其社会影响。该数据集还可用于训练和评估自然语言处理模型，特别是在毒性检测和情感分析领域。通过公开的Demo应用，用户可以直观地体验数据集的应用场景。

背景与挑战

背景概述

ThaiToxicityTweetCorpus数据集由日本东京都市大学的研究团队于2018年创建，旨在为泰语社交媒体中的毒性言论检测提供数据支持。该数据集通过Twitter Search API收集了包含44个泰语毒性关键词的推文，并由三名标注者进行毒性标注，标注结果以毒性/非毒性的比例形式呈现。该数据集的研究成果发表于《第二届网络安全与在线安全文本分析研讨会》，为泰语自然语言处理领域中的毒性检测任务提供了重要的数据基础，推动了泰语社交媒体内容安全的研究进展。

当前挑战

ThaiToxicityTweetCorpus数据集在构建与应用过程中面临多重挑战。首先，泰语作为一种低资源语言，其复杂的语言结构和丰富的文化背景使得毒性言论的识别难度显著增加。其次，社交媒体文本的噪声特性，如拼写错误、缩写和非正式表达，进一步加剧了毒性检测的复杂性。此外，数据标注过程中可能存在主观性，尽管采用多标注者机制，但仍需解决标注一致性问题。最后，毒性关键词的动态变化和社交媒体平台的隐私限制，也为数据的持续更新与扩展带来了挑战。

常用场景

经典使用场景

ThaiToxicityTweetCorpus数据集在自然语言处理领域，尤其是社交媒体文本分析中具有重要应用。该数据集主要用于研究泰语推文中的毒性内容，通过标注的推文数据，研究人员可以训练和评估毒性检测模型。这些模型能够自动识别和分类推文中的有毒言论，为社交媒体平台提供内容审核的支持。

衍生相关工作

基于ThaiToxicityTweetCorpus数据集，许多相关研究工作得以展开。例如，研究人员开发了多种基于深度学习的毒性检测模型，进一步提升了泰语文本中毒性内容的识别准确率。此外，该数据集还启发了跨语言毒性检测的研究，推动了多语言自然语言处理技术的发展。

数据集最近研究