five

hate_speech18|仇恨言论数据集|文本分类数据集

收藏
huggingface.co2025-03-24 收录
仇恨言论
文本分类
下载链接:
https://huggingface.co/datasets/odegiber/hate_speech18
下载链接
链接失效反馈
资源简介:
These files contain text extracted from Stormfront, a white supremacist forum. A random set of forums posts have been sampled from several subforums and split into sentences. Those sentences have been manually labelled as containing hate speech or not, according to certain annotation guidelines.

本数据集包含从Stormfront,一个白人至上主义论坛中提取的文本。通过对多个子论坛中的随机论坛帖子进行采样,并将其拆分为句子。根据特定的标注指南,这些句子已被人工标注为是否包含仇恨言论。
提供机构:
huggingface.co
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

2020年中西亚30m Landsat TM/OLI土壤盐渍化分布数据集

该土壤盐渍化产品覆盖范围涵盖中亚五国、西亚土耳其、阿富汗及伊朗全境,该产品使用Landsat、SPOT数据遥感数据解译得到,其中大部分区域使用Landsat数据,部分重点监测区域采用SPOT数据进行补充,利用多源、多时相遥感影像,结合遥感参数、地形地貌和自然环境因子,采用面向对象的遥感分类方法,应用影像分割、决策树分类、变化监测等关键技术完成。该2020年30米空间分辨率数据可用于中西亚盐渍化时空变化分析及资源利用评估,可为农牧业、林业、环境保护、水资源保护、环境保护等政府相关部门的规划与管理提供基础信息。

地球大数据科学工程 收录

13_Gitovu.rar

:unav

DataCite Commons 收录

Club Football Match Data (2000 - 2025)

该数据集提供了一个简单的入口,用于分析全球27个国家和42个联赛的足球比赛数据,包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分,每月的1号和15号对欧洲约500支最佳球队进行快照。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

MME-RealWorld

MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。

huggingface 收录