tmu-nlp/thai_toxicity_tweet

Name: tmu-nlp/thai_toxicity_tweet
Creator: tmu-nlp
Published: 2024-01-18 11:17:04
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/tmu-nlp/thai_toxicity_tweet

下载链接

链接失效反馈

官方服务：

资源简介：

Thai Toxicity Tweet Corpus 包含3,300条泰语推文（其中506条推文的文本已不可用），这些推文由人类根据包含44个词的词典进行标注。作者获得了2,027条毒性推文和1,273条非毒性推文，这些推文由三位标注者进行标注。语料库分析结果表明，包含毒性词汇的推文并不总是具有毒性。此外，如果推文中的毒性词汇表达了其原始含义，则该推文更可能具有毒性。标注中的分歧主要源于讽刺、目标不明确和词义模糊。数据清理者指出，2020年12月该数据集被纳入HuggingFace数据集时，506条推文已不再公开可用，这些推文的文本字段标记为`TWEET_NOT_FOUND`。

提供机构：

tmu-nlp

原始信息汇总

数据集卡片 for `thai_toxicity_tweet`

数据集描述

数据集摘要

Thai Toxicity Tweet Corpus 包含 3,300 条推文（其中 506 条推文文本缺失），由专家根据包含 44 个词汇的词典进行标注。作者获得了 2,027 条有毒推文和 1,273 条无毒推文，这些推文由三名标注者进行标注。语料库分析结果表明，包含有毒词汇的推文并不总是有毒的。此外，如果推文中包含指示其原始含义的有毒词汇，则该推文更有可能是有毒的。此外，标注中的分歧主要是因为讽刺、不明确的目标和词义歧义。

支持的任务和排行榜

文本分类

语言

泰语 (th)

数据集结构

数据实例

{is_toxic: 0, nontoxic_votes: 3, toxic_votes: 0, tweet_id: 898576382384418817, tweet_text: วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ} {is_toxic: 1, nontoxic_votes: 0, toxic_votes: 3, tweet_id: 898573084981985280, tweet_text: ควายแดงเมิงด่ารัฐบาลจนรองนายกป่วย พวกมึงกำลังทำลายชาติรู้มั้ย มั้ย มั้ย มั้ยยยยยยยยย news.voicetv.co.th/thailand/51672…}

数据字段

tweet_id: 推文在 Twitter 上的 ID
tweet_text: 推文文本
toxic_votes: 有多少标注者认为推文是有毒的，共 3 名标注者
nontoxic_votes: 有多少标注者认为推文是无毒的，共 3 名标注者
is_toxic: 如果推文是有毒的则为 1，否则为 0（多数原则）

数据分割

没有明确的分割。

数据集创建

策划理由

该数据集作为 Sirihattasak et al (2019) 的一部分创建。

源数据

初始数据收集和规范化

作者使用公开的 Twitter Search API 在 2017 年 1 月至 12 月期间基于关键词词典收集了 9,819 条推文。然后，他们为每个关键词选择了 75 条推文。总共，他们收集了 3,300 条推文进行标注。为了确保数据质量，他们设定了以下选择标准：

所有推文由人工选择以防止词义歧义。（Twitter API 根据关键词中的字符选择推文。例如，在“บ้า(crazy)”的情况下，API 还会选择“บ้านนอก”（乡村），这不是我们的目标。）
推文的长度应足够长以辨别推文的上下文。因此，他们设定了五个词的最小限制。
仅包含极其有毒词汇的推文（例如：“damn, retard, bitch, f*ck, slut!!!”）不被考虑。
此外，如果推文中包含的英语词汇不是标注决策中的关键元素，例如单词“f*ck”，则允许这些词汇。因此，我们的语料库包含英语词汇，但它们占总数的不到 2%。

所有标签、转发和链接都从这些推文中删除。然而，他们没有删除表情符号，因为这些情感图标可以暗示帖子的真实意图。此外，仅在标注的情况下，一些条目（如名人的名字）被替换为标签 <ไม่ขอเปิดเผยชื่อ>，以保护匿名性，防止个人偏见。

源语言生产者是谁？

泰国 Twitter 用户

标注

标注过程

我们手动标注我们的数据集，标签为有毒和无毒。我们将消息定义为有毒的，如果它基于我们对有毒性的定义指示任何有害、损害或负面意图。此外，所有推文都由三名标注者进行标注以识别有毒性；用于此识别的条件如下列表所示。

有毒消息是应该删除或在公共场合不允许的消息。
消息的目标或后果必须存在。它可以是个人或基于宗教或种族等共同性的广义群体，或整个社区。
自我抱怨不被视为有毒，因为它不会对任何人造成伤害。然而，如果自我抱怨旨在表明某些不好的事情，它将被视为有毒。
包括讽刺在内的直接和间接消息都被考虑在内。

我们严格指示所有标注者关于这些概念，并要求他们进行小测试以确保他们理解这些条件。标注过程分为两轮。我们要求候选人在第一轮中标注他们的答案以学习我们的标注标准。然后，我们要求他们在不同的数据集上进行标注，并选择在第二轮中获得满分的候选人作为标注者。在这些标注者中，20% 的标注者未能通过第一轮，并未参与最终的标注。

标注者是谁？

由 Sirihattasak et al (2019) 雇佣的三名标注者

个人和敏感信息

尽管所有推文都是公开的，但由于有毒推文的性质，可能存在人身攻击和有毒语言。

使用数据的注意事项

数据集的社会影响

有毒社交媒体消息分类数据集

偏见的讨论

用户在标注前被标注者屏蔽以防止基于推文作者的偏见

其他已知限制

该数据集在 2020 年 12 月被包含到 huggingface/datasets 中。到那时，506 条推文已不再公开可用。我们用 TWEET_NOT_FOUND 表示 tweet_text 中的这些推文。

附加信息

数据集策展人

Sirihattasak et al (2019)

许可信息

CC-BY-NC 3.0

引用信息

如果您使用该数据集，请引用以下内容：

@article{sirihattasak2019annotation, title={Annotation and Classification of Toxicity for Thai Twitter}, author={Sirihattasak, Sugan and Komachi, Mamoru and Ishikawa, Hiroshi}, year={2019} }

贡献

感谢 @cstorm125 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集