JunyuLu/ToxiCN_MM
收藏Hugging Face2024-06-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JunyuLu/ToxiCN_MM
下载链接
链接失效反馈官方服务:
资源简介:
ToxiCN MM是第一个中文有害表情包数据集,包含12,000个样本,并对表情包类型进行了细粒度的标注。数据集关注了有针对性的有害表情包以及那些表现出潜在毒性但没有特定目标的表情包,包括一般冒犯、性暗示和消极文化。数据集仅用于科学研究,禁止商业使用,并且所有数据都已匿名化,不包含任何个人信息。数据集采用CC BY-NC 4.0许可证。
ToxiCN MM是第一个中文有害表情包数据集,包含12,000个样本,并对表情包类型进行了细粒度的标注。数据集关注了有针对性的有害表情包以及那些表现出潜在毒性但没有特定目标的表情包,包括一般冒犯、性暗示和消极文化。数据集仅用于科学研究,禁止商业使用,并且所有数据都已匿名化,不包含任何个人信息。数据集采用CC BY-NC 4.0许可证。
提供机构:
JunyuLu
原始信息汇总
数据集概述
数据集名称
- ToxiCN MM
数据集描述
- ToxiCN MM 是首个中文有害表情包数据集,包含12,000个样本,具有细粒度的表情包类型标注。
- 数据集关注两类有害表情包:有特定目标的有害表情包 和 无特定目标但具有潜在毒性的表情包,包括 一般冒犯、性暗示 和 颓废文化。
数据集内容
- 数据集标签信息存储于 label.csv。
伦理声明
- 研究旨在促进对中文有害表情包的全面检测,并提高研究者对非英语表情包的关注。
- 数据集遵守每个公共在线社交平台的数据使用协议,所有数据已匿名化,不包含任何个人信息。
- 数据集中的样本意见和发现不应被解释为作者的观点表达或暗示。
许可协议
- 数据集遵循 CC BY-NC 4.0 许可。
搜集汇总
数据集介绍

背景与挑战
背景概述
ToxiCN_MM是首个中文有害表情包数据集,包含12,000个样本,提供细粒度的表情包类型标注,重点关注有针对性的有害表情包和潜在毒性的表情包。数据集目前仅发布子集以防止滥用,并遵循CC BY-NC 4.0许可。
以上内容由遇见数据集搜集并总结生成



