ToxicCommons-balanced|文本分类数据集|有害内容检测数据集
收藏ToxicCommons-balanced 数据集概述
数据集信息
特征
- text: 文本内容,数据类型为字符串。
- scores: 分数序列,数据类型为整数。
- race_origin: 种族/起源,数据类型为布尔值。
- gender_sex: 性别,数据类型为布尔值。
- religion: 宗教,数据类型为布尔值。
- ability: 能力,数据类型为布尔值。
- violence: 暴力,数据类型为布尔值。
数据分割
- train: 训练集,包含1128368个样本,大小为1980099202.4720185字节。
- test: 测试集,包含59388个样本,大小为104216116.93738943字节。
数据集大小
- 下载大小: 1519683100字节
- 数据集总大小: 2084315319.4094079字节
配置
- config_name: default
- data_files:
- train: 数据路径为
data/train-*
- test: 数据路径为
data/test-*
- train: 数据路径为
- data_files:

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
LFW (Labeled Faces in the Wild)
Labeled Faces in the Wild,是一个人脸照片数据库,旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。
OpenDataLab 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录