LAHM|仇恨言论识别数据集|多语言处理数据集

arXiv2023-04-03 更新2024-08-06 收录

仇恨言论识别

多语言处理

下载链接：

http://arxiv.org/abs/2304.00913v1

下载链接

链接失效反馈

资源简介：

LAHM数据集是由Logically.ai创建的一个大型多语言和多领域仇恨言论识别数据集，旨在解决社交媒体中仇恨言论的自动检测问题。该数据集包含近50万条推文，覆盖英语、印地语、阿拉伯语、法语、德语和西班牙语六种语言，并针对辱骂、种族主义、性别歧视、宗教仇恨和极端主义等多个领域进行详细标注。数据集的创建过程涉及使用特定关键词从社交媒体和新闻文章中收集数据，并通过多层级的标注流程确保数据的质量。LAHM数据集的应用领域广泛，包括但不限于社交媒体监控、内容审核和跨语言情感分析，旨在提高对仇恨言论的识别准确性和效率。

提供机构：

Logically.ai

创建时间：

2023-04-03

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录