Korean counter-speech dataset

github2022-12-05 更新2024-05-31 收录

下载链接：

https://github.com/hayul7805/Korean-Counter-speech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用韩语编写的对抗仇恨言论的推文ID，用于评估韩语仇恨言论检测模型的有效性。数据集通过Twint库收集，并标注了目标群体信息。

This dataset comprises tweet IDs written in Korean, specifically targeting adversarial hate speech, aimed at evaluating the effectiveness of hate speech detection models for the Korean language. The dataset was collected using the Twint library and includes annotations of target group information.

创建时间：

2022-04-30

原始信息汇总

数据集概述

数据集名称

Korean-Counter-speech-TweetIDs

数据集内容

包含用韩语编写的对抗性言论的推文ID数据集。
使用Twint库收集对抗仇恨言论的推文。
对每个推文进行了目标群体信息注释。

数据集用途

用于评估韩语仇恨言论检测模型的准确性。
通过引入首个韩语对抗性言论数据集，揭示了现有模型的准确率从97.9%下降到42.7%。

数据集限制

仅公开发布收集的推文ID，以遵守Twitter的服务条款。
数据仅供非商业研究使用。

数据集恢复工具

使用Hydrator或Twarc工具恢复推文ID以获取原始推文。
注意：恢复过程可能耗时，且部分推文可能已被删除。

数据集引用信息

引用文献：박하율, 박현아, 송상헌.(2022).혐오와 대항: 혐오표현 탐지 모델 평가를 위한 대항표현 데이터셋 구축.담화와인지,29(2),1-23.
BibTeX引用格式： bibtex @article{edspia.NODE1106334620220531, Title = {혐오와 대항: 혐오표현 탐지 모델 평가를 위한 대항표현 데이터셋 구축.}, Author = {박하율 (Park, Hayul) and 박현아 (Park, HyunA) and 송상헌 (Song, Sanghoun)}, Journal = {담화와인지}, Volume = {29}, Number = {2}, Pages = {1 - 23}, Year = {2022} }

数据集许可证

根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。

搜集汇总

数据集介绍

构建方式

Korean counter-speech dataset的构建过程采用了Twint库进行数据收集，该库专门用于从Twitter平台抓取特定主题的推文。研究团队针对韩语环境中的反仇恨言论进行了数据采集，并对每条推文进行了目标群体信息的标注。为确保符合Twitter的服务条款，数据集仅公开了推文的ID，而非推文内容本身。这一方法不仅保护了用户隐私，也为后续的研究提供了合法合规的数据基础。

使用方法

使用Korean counter-speech dataset时，研究者需通过Hydrator或Twarc等工具将推文ID重新水合为完整的推文内容。这一过程可能耗时，且部分推文可能已被删除。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License，并引用相关研究论文。这一数据集特别适用于非商业性的研究，尤其是在韩语仇恨言论检测模型的开发和评估领域。

背景与挑战

背景概述

Korean counter-speech dataset 是由韩国研究者박하율、박현아和송상헌于2022年创建的，旨在为韩语环境下的仇恨言论检测研究提供支持。该数据集专注于对抗性言论（counter-speech），即针对网络仇恨言论的回应，旨在阻止其传播。尽管对抗性言论常被视为仇恨言论的替代解决方案，但其语言结构与仇恨言论相似，导致现有检测模型常将其误判为仇恨言论，进而可能压制少数群体及其支持者的声音。该数据集的发布填补了韩语对抗性言论数据集的空白，并为相关模型的评估提供了重要资源。

当前挑战

该数据集面临的主要挑战包括：首先，对抗性言论与仇恨言论在语言结构上的相似性使得现有模型难以准确区分，导致误判率较高。其次，数据集的构建过程中，研究者需确保数据的多样性和代表性，以涵盖不同目标群体的对抗性言论。此外，由于数据来源于社交媒体平台，数据的时效性和完整性难以保证，部分推文可能已被删除或修改。最后，数据的使用需严格遵守Twitter的服务条款，限制了数据的公开范围和可用性。这些挑战不仅影响了数据集的构建，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

Korean counter-speech dataset 主要用于研究和评估韩语环境下的仇恨言论检测模型。通过提供大量标注了目标群体信息的韩语反仇恨言论推文ID，该数据集为研究人员提供了一个独特的资源，用于训练和测试模型，以区分仇恨言论和反仇恨言论。这种区分对于提高模型的准确性和减少误报至关重要。

解决学术问题

该数据集解决了韩语环境中仇恨言论检测模型在识别反仇恨言论时的高误报率问题。由于反仇恨言论常常使用与仇恨言论相似的语言结构，现有的先进模型往往将其错误分类。通过引入这一数据集，研究人员能够更准确地评估和改进模型，从而减少对少数群体及其支持者言论的误判，保护言论自由。

实际应用

在实际应用中，Korean counter-speech dataset 可用于社交媒体平台的自动内容审核系统。通过训练模型识别和区分仇恨言论与反仇恨言论，平台可以更有效地管理用户生成内容，减少不当言论的传播，同时保护用户的反抗和表达自由。此外，该数据集还可用于教育和培训，帮助提高公众对仇恨言论和反仇恨言论的认识。

数据集最近研究