Rhma/CONAN

Name: Rhma/CONAN
Creator: Rhma
Published: 2024-05-15 18:21:41
License: 暂无描述

Hugging Face2024-05-15 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Rhma/CONAN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，如cn_id、hateSpeech、counterSpeech、hsType、hsSubType、cnType、age、gender和educationLevel。这些字段分别代表不同的数据类型，如字符串和浮点数。数据集包含一个名为train的分割，其中包含14988个示例，总大小为4432994字节。下载大小为696348字节。数据集的配置名为default，数据文件路径为data/train-*。

提供机构：

Rhma

原始信息汇总

数据集概述

数据集特征

cn_id: 数据类型为字符串
hateSpeech: 数据类型为字符串
counterSpeech: 数据类型为字符串
hsType: 数据类型为字符串
hsSubType: 数据类型为字符串
cnType: 数据类型为字符串
age: 数据类型为浮点数
gender: 数据类型为字符串
educationLevel: 数据类型为字符串

数据集分割

训练集:
- 数据大小: 4432994 字节
- 示例数量: 14988

数据集大小

下载大小: 696348 字节
总数据集大小: 4432994 字节

配置

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

Rhma/CONAN数据集的构建基于对网络上的仇恨言论及其对应的反驳言论的系统收集与整理。数据集通过自动化工具和人工审核相结合的方式，从多个公开社交媒体平台和论坛中提取相关数据。每条记录包含仇恨言论、反驳言论、仇恨言论类型及其子类型、反驳言论类型、以及发布者的年龄、性别和教育水平等信息。这种多维度的数据结构旨在为研究者提供丰富的上下文信息，以支持更深入的分析和模型训练。

使用方法

Rhma/CONAN数据集适用于多种自然语言处理和机器学习任务，包括但不限于仇恨言论检测、反驳言论生成和社交媒体用户行为分析。研究者可以通过加载数据集的训练部分进行模型训练，利用数据集提供的多维度特征进行特征工程和模型优化。数据集的结构化设计使得数据预处理和特征提取过程相对简便，适合不同技术背景的研究者使用。此外，数据集的下载和使用均遵循开源许可，确保了其广泛的应用和传播。

背景与挑战

背景概述

在当今数字化社会中，网络仇恨言论的泛滥已成为一个严峻的社会问题。Rhma/CONAN数据集由Rhma研究团队于近期创建，旨在通过提供一个包含中文仇恨言论及其反驳言论的数据集，推动对这一问题的深入研究。该数据集不仅包含了仇恨言论的文本内容，还详细记录了其类型、子类型以及相应的反驳言论类型，为研究人员提供了一个全面的数据资源。此外，数据集还涵盖了用户的基本信息，如年龄、性别和教育水平，这些信息有助于更细致地分析仇恨言论的传播机制及其社会影响。Rhma/CONAN数据集的发布，标志着在仇恨言论研究领域迈出了重要一步，为未来的研究提供了坚实的基础。

当前挑战

尽管Rhma/CONAN数据集在仇恨言论研究领域具有重要意义，但其构建过程中仍面临诸多挑战。首先，仇恨言论的定义和分类标准在不同文化和语境中存在差异，这增加了数据标注的复杂性。其次，数据集的多样性和代表性问题也是一个重要挑战，如何确保数据集能够全面反映不同社会群体的仇恨言论及其反驳言论，是一个亟待解决的问题。此外，数据集中的用户信息虽然提供了额外的分析维度，但也引发了隐私保护和数据安全的问题。这些挑战不仅影响了数据集的质量和可用性，也对后续研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Rhma/CONAN数据集的经典使用场景主要集中在仇恨言论检测与反驳生成任务上。该数据集通过提供仇恨言论及其对应的反驳言论，为研究者提供了一个丰富的资源库，用于训练和评估模型在识别和应对网络仇恨言论方面的能力。

解决学术问题

Rhma/CONAN数据集解决了在社交媒体和在线论坛中普遍存在的仇恨言论检测与管理问题。通过提供详细的仇恨言论及其反驳样本，该数据集为学术界提供了一个标准化的测试平台，推动了相关算法的发展，从而提高了仇恨言论检测的准确性和反驳策略的有效性。

实际应用

在实际应用中，Rhma/CONAN数据集被广泛用于开发和优化社交媒体平台的仇恨言论过滤系统。通过训练基于该数据集的模型，平台可以更有效地识别和处理仇恨言论，从而提升用户体验，维护社区的健康环境。

数据集最近研究