five

JunyuLu/ToxiCN_MM

收藏
Hugging Face2024-06-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JunyuLu/ToxiCN_MM
下载链接
链接失效反馈
官方服务:
资源简介:
ToxiCN MM是第一个中文有害表情包数据集,包含12,000个样本,并对表情包类型进行了细粒度的标注。数据集关注了有针对性的有害表情包以及那些表现出潜在毒性但没有特定目标的表情包,包括一般冒犯、性暗示和消极文化。数据集仅用于科学研究,禁止商业使用,并且所有数据都已匿名化,不包含任何个人信息。数据集采用CC BY-NC 4.0许可证。

ToxiCN MM是第一个中文有害表情包数据集,包含12,000个样本,并对表情包类型进行了细粒度的标注。数据集关注了有针对性的有害表情包以及那些表现出潜在毒性但没有特定目标的表情包,包括一般冒犯、性暗示和消极文化。数据集仅用于科学研究,禁止商业使用,并且所有数据都已匿名化,不包含任何个人信息。数据集采用CC BY-NC 4.0许可证。
提供机构:
JunyuLu
原始信息汇总

数据集概述

数据集名称

  • ToxiCN MM

数据集描述

  • ToxiCN MM 是首个中文有害表情包数据集,包含12,000个样本,具有细粒度的表情包类型标注。
  • 数据集关注两类有害表情包:有特定目标的有害表情包无特定目标但具有潜在毒性的表情包,包括 一般冒犯性暗示颓废文化

数据集内容

  • 数据集标签信息存储于 label.csv

伦理声明

  • 研究旨在促进对中文有害表情包的全面检测,并提高研究者对非英语表情包的关注。
  • 数据集遵守每个公共在线社交平台的数据使用协议,所有数据已匿名化,不包含任何个人信息。
  • 数据集中的样本意见和发现不应被解释为作者的观点表达或暗示。

许可协议

  • 数据集遵循 CC BY-NC 4.0 许可。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ToxiCN_MM是首个中文有害表情包数据集,包含12,000个样本,提供细粒度的表情包类型标注,重点关注有针对性的有害表情包和潜在毒性的表情包。数据集目前仅发布子集以防止滥用,并遵循CC BY-NC 4.0许可。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作