tmu-nlp/thai_toxicity_tweet
收藏数据集卡片 for thai_toxicity_tweet
数据集描述
数据集摘要
Thai Toxicity Tweet Corpus 包含 3,300 条推文(其中 506 条推文文本缺失),由专家根据包含 44 个词汇的词典进行标注。作者获得了 2,027 条有毒推文和 1,273 条无毒推文,这些推文由三名标注者进行标注。语料库分析结果表明,包含有毒词汇的推文并不总是有毒的。此外,如果推文中包含指示其原始含义的有毒词汇,则该推文更有可能是有毒的。此外,标注中的分歧主要是因为讽刺、不明确的目标和词义歧义。
支持的任务和排行榜
文本分类
语言
泰语 (th)
数据集结构
数据实例
{is_toxic: 0, nontoxic_votes: 3, toxic_votes: 0, tweet_id: 898576382384418817, tweet_text: วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ} {is_toxic: 1, nontoxic_votes: 0, toxic_votes: 3, tweet_id: 898573084981985280, tweet_text: ควายแดงเมิงด่ารัฐบาลจนรองนายกป่วย พวกมึงกำลังทำลายชาติรู้มั้ย มั้ย มั้ย มั้ยยยยยยยยย news.voicetv.co.th/thailand/51672…}
数据字段
tweet_id: 推文在 Twitter 上的 IDtweet_text: 推文文本toxic_votes: 有多少标注者认为推文是有毒的,共 3 名标注者nontoxic_votes: 有多少标注者认为推文是无毒的,共 3 名标注者is_toxic: 如果推文是有毒的则为 1,否则为 0(多数原则)
数据分割
没有明确的分割。
数据集创建
策划理由
该数据集作为 Sirihattasak et al (2019) 的一部分创建。
源数据
初始数据收集和规范化
作者使用公开的 Twitter Search API 在 2017 年 1 月至 12 月期间基于关键词词典收集了 9,819 条推文。然后,他们为每个关键词选择了 75 条推文。总共,他们收集了 3,300 条推文进行标注。为了确保数据质量,他们设定了以下选择标准:
- 所有推文由人工选择以防止词义歧义。(Twitter API 根据关键词中的字符选择推文。例如,在“บ้า(crazy)”的情况下,API 还会选择“บ้านนอก”(乡村),这不是我们的目标。)
- 推文的长度应足够长以辨别推文的上下文。因此,他们设定了五个词的最小限制。
- 仅包含极其有毒词汇的推文(例如:“damn, retard, bitch, f*ck, slut!!!”)不被考虑。
- 此外,如果推文中包含的英语词汇不是标注决策中的关键元素,例如单词“f*ck”,则允许这些词汇。因此,我们的语料库包含英语词汇,但它们占总数的不到 2%。
所有标签、转发和链接都从这些推文中删除。然而,他们没有删除表情符号,因为这些情感图标可以暗示帖子的真实意图。此外,仅在标注的情况下,一些条目(如名人的名字)被替换为标签 <ไม่ขอเปิดเผยชื่อ>,以保护匿名性,防止个人偏见。
源语言生产者是谁?
泰国 Twitter 用户
标注
标注过程
我们手动标注我们的数据集,标签为有毒和无毒。我们将消息定义为有毒的,如果它基于我们对有毒性的定义指示任何有害、损害或负面意图。此外,所有推文都由三名标注者进行标注以识别有毒性;用于此识别的条件如下列表所示。
- 有毒消息是应该删除或在公共场合不允许的消息。
- 消息的目标或后果必须存在。它可以是个人或基于宗教或种族等共同性的广义群体,或整个社区。
- 自我抱怨不被视为有毒,因为它不会对任何人造成伤害。然而,如果自我抱怨旨在表明某些不好的事情,它将被视为有毒。
- 包括讽刺在内的直接和间接消息都被考虑在内。
我们严格指示所有标注者关于这些概念,并要求他们进行小测试以确保他们理解这些条件。标注过程分为两轮。我们要求候选人在第一轮中标注他们的答案以学习我们的标注标准。然后,我们要求他们在不同的数据集上进行标注,并选择在第二轮中获得满分的候选人作为标注者。在这些标注者中,20% 的标注者未能通过第一轮,并未参与最终的标注。
标注者是谁?
由 Sirihattasak et al (2019) 雇佣的三名标注者
个人和敏感信息
尽管所有推文都是公开的,但由于有毒推文的性质,可能存在人身攻击和有毒语言。
使用数据的注意事项
数据集的社会影响
- 有毒社交媒体消息分类数据集
偏见的讨论
- 用户在标注前被标注者屏蔽以防止基于推文作者的偏见
其他已知限制
- 该数据集在 2020 年 12 月被包含到 huggingface/datasets 中。到那时,506 条推文已不再公开可用。我们用
TWEET_NOT_FOUND表示tweet_text中的这些推文。
附加信息
数据集策展人
许可信息
CC-BY-NC 3.0
引用信息
如果您使用该数据集,请引用以下内容:
@article{sirihattasak2019annotation, title={Annotation and Classification of Toxicity for Thai Twitter}, author={Sirihattasak, Sugan and Komachi, Mamoru and Ishikawa, Hiroshi}, year={2019} }
贡献
感谢 @cstorm125 添加此数据集。



