christophsonntag/OLID|攻击性语言识别数据集|文本分类数据集
收藏数据集概述
数据集名称: Offensive Language Identification Dataset (OLID)
语言: 英语
数据集大小: 14,100条推文
数据集结构:
- 文件结构: 分为训练集和测试集,分别存储于
train.csv
和test.csv
。 - 数据字段:
id
: 整数类型tweet
: 字符串类型cleaned_tweet
: 字符串类型subtask_a
: 字符串类型subtask_b
: 字符串类型subtask_c
: 字符串类型
任务类型: 文本分类
任务描述:
- 子任务A(Offensive Language Identification): 识别推文是否包含攻击性语言。
(NOT) Not Offensive
: 非攻击性(OFF) Offensive
: 攻击性
- 子任务B(Automatic Categorization of Offense Types): 自动分类攻击类型。
(TIN) Targeted Insult and Threats
: 针对个人的侮辱和威胁(UNT) Untargeted
: 非针对个人的侮辱
- 子任务C(Offense Target Identification): 识别攻击目标。
(IND) Individual
: 个人(GRP) Group
: 群体(OTH) Other
: 其他
数据收集和处理:
- 数据来源于Twitter,通过API搜索特定关键词和构造,如“she is”或“to:BreitBartNews”等,以获取可能包含攻击性内容的推文。
注释过程:
- 通过众包方式进行注释,每个实例的黄金标签基于三个不同注释者的共识。
数据集用途:
- 用于研究和开发攻击性语言检测和分类模型。
数据集来源:

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
MinneApple 苹果检测数据集
MinneApple 是一个用于苹果检测和分割的基准数据集。该数据集使用多边形掩码为每个对象实例进行标注,以帮助进行精确的对象检测、定位、和分割。此外,该数据集提供了基于补丁的聚类水果计数数据。该数据集在 1000 张图像中包含超过 41,0000 个带标注的对象实例。
超神经 收录
Eurovision Song Contest Dataset
Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。
github 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录