BullyDataset|网络欺凌检测数据集|社交媒体分析数据集
收藏BullyDataset 概述
数据集描述
- 来源:Sina Weibo(新浪微博)评论
- 目的:专门用于网络霸凌检测
标签定义
- 霸凌评论:满足以下任一条件的微博评论:
- 使用性别歧视、种族或地域侮辱性语言。
- 使用辱骂或侮辱性语言指责他人,缺乏合理论据。
- 明显歪曲事实或试图扭曲对少数群体的看法,提出无根据的指控。
- 表达对少数群体的暴力倾向或诅咒。
- 包含对个人外貌、身体或家庭成员的攻击。
- 重复发表负面评论,或号召他人加入攻击。
- 强加他人不愿接受的绰号或侮辱性称呼。
引用信息
- 作者:Nijia Lu, Guohua Wu, Zhen Zhang, Yitao Zheng, Yizhi Ren, Kim-Kwang Raymond Choo
- 发表年份:2019年
- 论文标题:Cyberbullying Detection in Social Media Text Based on Character-level Convolutional Neural Networks with Shortcuts
- 联系方式:lunijia@hdu.edu.cn

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
DermNet
DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。
www.dermnetnz.org 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录