IEHate|仇恨言论检测数据集|低资源语言数据集

arXiv2023-06-28 更新2024-06-21 收录

仇恨言论检测

低资源语言

下载链接：

https://github.com/Farhan-jafri/Indian-Election

下载链接

链接失效反馈

资源简介：

IEHate数据集由贾米亚米利亚伊斯兰大学创建，包含11,457条手动标注的印度选举期间发布的印地语推文。该数据集主要用于研究政治讨论中的仇恨言论，特别是在低资源语言环境下的挑战。数据集内容涵盖了2022年印度各州议会选举期间的推文，由四名标注者根据是否包含仇恨言论进行分类。创建过程中，首先通过Twitter API收集推文，然后进行多阶段标注以确保高质量的标注结果。该数据集的应用领域主要集中在开发和评估低资源语言环境下的仇恨言论检测技术，旨在促进更健康、更包容的民主讨论环境。

提供机构：

贾米亚米利亚伊斯兰大学

创建时间：

2023-06-26

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录