five

AI-Sweden-Models/BiaSWE|厌女检测数据集|文本分类数据集

收藏
hugging_face2025-01-13 更新2024-06-12 收录
厌女检测
文本分类
下载链接:
https://hf-mirror.com/datasets/AI-Sweden-Models/BiaSWE
下载链接
链接失效反馈
资源简介:
BiaSWE是一个小型注释数据集,用于检测瑞典语中的厌女症,由社会科学和人文学科的专家团队注释,涉及仇恨言论、厌女症、厌女症类型类别和严重程度。该数据集包含450个数据点,每个数据点至少由两位专家手动注释,分为训练集、验证集和测试集,格式为parquet文件。数据集可用于厌女症与非厌女症文本的分类以及语言模型的去偏。

BiaSWE是一个小型注释数据集,用于检测瑞典语中的厌女症,由社会科学和人文学科的专家团队注释,涉及仇恨言论、厌女症、厌女症类型类别和严重程度。该数据集包含450个数据点,每个数据点至少由两位专家手动注释,分为训练集、验证集和测试集,格式为parquet文件。数据集可用于厌女症与非厌女症文本的分类以及语言模型的去偏。
提供机构:
AI-Sweden-Models
原始信息汇总

数据集概述

数据集名称

BiaSWE

数据集内容

  • 主要特征
    • text:文本内容,数据类型为字符串。
    • annotations:注释信息,包含多个注释者对文本的分类、评论、仇恨言论、性别歧视和评分。

数据集结构

  • 注释结构
    • 每个注释者包括以下字段:
      • category:分类,数据类型为字符串。
      • comment:评论,数据类型为字符串。
      • hate_speech:仇恨言论,数据类型为字符串。
      • misogyny:性别歧视,数据类型为字符串。
      • rating:评分,数据类型为字符串。

数据集分割

  • 分割详情
    • train:训练集,包含150个样本,总大小为153663字节。
    • val:验证集,包含150个样本,总大小为182637字节。
    • test:测试集,包含150个样本,总大小为176851字节。

数据集大小

  • 下载大小:308431字节
  • 数据集总大小:513151字节

数据集配置

  • 配置文件
    • default:默认配置,包含训练、验证和测试数据文件的路径。

数据集存储

  • 存储格式:Parquet文件

  • 文件结构

    BiaSWE/ /data - train-00000-of-00001.parquet - val-00000-of-00001.parquet - test-00000-of-00001.parquet

数据集用途

用于检测瑞典语中的性别歧视,可用于分类性别歧视与非性别歧视文本,以及对语言模型进行去偏处理。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录