five

tmu-nlp/thai_toxicity_tweet

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/tmu-nlp/thai_toxicity_tweet
下载链接
链接失效反馈
官方服务:
资源简介:
Thai Toxicity Tweet Corpus 包含3,300条泰语推文(其中506条推文的文本已不可用),这些推文由人类根据包含44个词的词典进行标注。作者获得了2,027条毒性推文和1,273条非毒性推文,这些推文由三位标注者进行标注。语料库分析结果表明,包含毒性词汇的推文并不总是具有毒性。此外,如果推文中的毒性词汇表达了其原始含义,则该推文更可能具有毒性。标注中的分歧主要源于讽刺、目标不明确和词义模糊。数据清理者指出,2020年12月该数据集被纳入HuggingFace数据集时,506条推文已不再公开可用,这些推文的文本字段标记为`TWEET_NOT_FOUND`。
提供机构:
tmu-nlp
原始信息汇总

数据集卡片 for thai_toxicity_tweet

数据集描述

数据集摘要

Thai Toxicity Tweet Corpus 包含 3,300 条推文(其中 506 条推文文本缺失),由专家根据包含 44 个词汇的词典进行标注。作者获得了 2,027 条有毒推文和 1,273 条无毒推文,这些推文由三名标注者进行标注。语料库分析结果表明,包含有毒词汇的推文并不总是有毒的。此外,如果推文中包含指示其原始含义的有毒词汇,则该推文更有可能是有毒的。此外,标注中的分歧主要是因为讽刺、不明确的目标和词义歧义。

支持的任务和排行榜

文本分类

语言

泰语 (th)

数据集结构

数据实例

{is_toxic: 0, nontoxic_votes: 3, toxic_votes: 0, tweet_id: 898576382384418817, tweet_text: วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ} {is_toxic: 1, nontoxic_votes: 0, toxic_votes: 3, tweet_id: 898573084981985280, tweet_text: ควายแดงเมิงด่ารัฐบาลจนรองนายกป่วย พวกมึงกำลังทำลายชาติรู้มั้ย มั้ย มั้ย มั้ยยยยยยยยย news.voicetv.co.th/thailand/51672…}

数据字段

  • tweet_id: 推文在 Twitter 上的 ID
  • tweet_text: 推文文本
  • toxic_votes: 有多少标注者认为推文是有毒的,共 3 名标注者
  • nontoxic_votes: 有多少标注者认为推文是无毒的,共 3 名标注者
  • is_toxic: 如果推文是有毒的则为 1,否则为 0(多数原则)

数据分割

没有明确的分割。

数据集创建

策划理由

该数据集作为 Sirihattasak et al (2019) 的一部分创建。

源数据

初始数据收集和规范化

作者使用公开的 Twitter Search API 在 2017 年 1 月至 12 月期间基于关键词词典收集了 9,819 条推文。然后,他们为每个关键词选择了 75 条推文。总共,他们收集了 3,300 条推文进行标注。为了确保数据质量,他们设定了以下选择标准:

  1. 所有推文由人工选择以防止词义歧义。(Twitter API 根据关键词中的字符选择推文。例如,在“บ้า(crazy)”的情况下,API 还会选择“บ้านนอก”(乡村),这不是我们的目标。)
  2. 推文的长度应足够长以辨别推文的上下文。因此,他们设定了五个词的最小限制。
  3. 仅包含极其有毒词汇的推文(例如:“damn, retard, bitch, f*ck, slut!!!”)不被考虑。
  4. 此外,如果推文中包含的英语词汇不是标注决策中的关键元素,例如单词“f*ck”,则允许这些词汇。因此,我们的语料库包含英语词汇,但它们占总数的不到 2%。

所有标签、转发和链接都从这些推文中删除。然而,他们没有删除表情符号,因为这些情感图标可以暗示帖子的真实意图。此外,仅在标注的情况下,一些条目(如名人的名字)被替换为标签 <ไม่ขอเปิดเผยชื่อ>,以保护匿名性,防止个人偏见。

源语言生产者是谁?

泰国 Twitter 用户

标注

标注过程

我们手动标注我们的数据集,标签为有毒和无毒。我们将消息定义为有毒的,如果它基于我们对有毒性的定义指示任何有害、损害或负面意图。此外,所有推文都由三名标注者进行标注以识别有毒性;用于此识别的条件如下列表所示。

  • 有毒消息是应该删除或在公共场合不允许的消息。
  • 消息的目标或后果必须存在。它可以是个人或基于宗教或种族等共同性的广义群体,或整个社区。
  • 自我抱怨不被视为有毒,因为它不会对任何人造成伤害。然而,如果自我抱怨旨在表明某些不好的事情,它将被视为有毒。
  • 包括讽刺在内的直接和间接消息都被考虑在内。

我们严格指示所有标注者关于这些概念,并要求他们进行小测试以确保他们理解这些条件。标注过程分为两轮。我们要求候选人在第一轮中标注他们的答案以学习我们的标注标准。然后,我们要求他们在不同的数据集上进行标注,并选择在第二轮中获得满分的候选人作为标注者。在这些标注者中,20% 的标注者未能通过第一轮,并未参与最终的标注。

标注者是谁?

Sirihattasak et al (2019) 雇佣的三名标注者

个人和敏感信息

尽管所有推文都是公开的,但由于有毒推文的性质,可能存在人身攻击和有毒语言。

使用数据的注意事项

数据集的社会影响

  • 有毒社交媒体消息分类数据集

偏见的讨论

  • 用户在标注前被标注者屏蔽以防止基于推文作者的偏见

其他已知限制

  • 该数据集在 2020 年 12 月被包含到 huggingface/datasets 中。到那时,506 条推文已不再公开可用。我们用 TWEET_NOT_FOUND 表示 tweet_text 中的这些推文。

附加信息

数据集策展人

Sirihattasak et al (2019)

许可信息

CC-BY-NC 3.0

引用信息

如果您使用该数据集,请引用以下内容:

@article{sirihattasak2019annotation, title={Annotation and Classification of Toxicity for Thai Twitter}, author={Sirihattasak, Sugan and Komachi, Mamoru and Ishikawa, Hiroshi}, year={2019} }

贡献

感谢 @cstorm125 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作