AI-Sweden-Models/BiaSWE|厌女检测数据集|文本分类数据集
收藏数据集概述
数据集名称
BiaSWE
数据集内容
- 主要特征:
text
:文本内容,数据类型为字符串。annotations
:注释信息,包含多个注释者对文本的分类、评论、仇恨言论、性别歧视和评分。
数据集结构
- 注释结构:
- 每个注释者包括以下字段:
category
:分类,数据类型为字符串。comment
:评论,数据类型为字符串。hate_speech
:仇恨言论,数据类型为字符串。misogyny
:性别歧视,数据类型为字符串。rating
:评分,数据类型为字符串。
- 每个注释者包括以下字段:
数据集分割
- 分割详情:
train
:训练集,包含150个样本,总大小为153663字节。val
:验证集,包含150个样本,总大小为182637字节。test
:测试集,包含150个样本,总大小为176851字节。
数据集大小
- 下载大小:308431字节
- 数据集总大小:513151字节
数据集配置
- 配置文件:
default
:默认配置,包含训练、验证和测试数据文件的路径。
数据集存储
-
存储格式:Parquet文件
-
文件结构:
BiaSWE/ /data - train-00000-of-00001.parquet - val-00000-of-00001.parquet - test-00000-of-00001.parquet
数据集用途
用于检测瑞典语中的性别歧视,可用于分类性别歧视与非性别歧视文本,以及对语言模型进行去偏处理。
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录