KoMultiText

github2023-12-03 更新2024-05-31 收录

下载链接：

https://github.com/Dasol-Choi/KoMultiText

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于分类偏见言论的韩语多任务文本数据集，收集自韩国知名的SNS平台。数据集包含文本样本的标注，包括偏好、亵渎和九种类型的偏见，支持多任务学习以同时分类用户生成的文本。

This dataset is a Korean multi-task text dataset designed for classifying biased speech, collected from a well-known SNS platform in South Korea. The dataset includes annotations for text samples, encompassing preferences, profanity, and nine types of biases, supporting multi-task learning to simultaneously classify user-generated texts.

创建时间：

2023-10-07

原始信息汇总

数据集概述

数据集名称

KoMultiText

数据集目的

用于分类现实世界在线服务中的偏见言论。

数据集内容

包含来自韩国知名SNS平台的文本数据。
数据集提供以下类型的标注：
- (1) 偏好
- (2) 亵渎
- (3) 九种偏见

数据集规模

总数据量：150,000条评论
- 有标注数据集：训练集（38,361条评论/5MB），测试集（2,000条评论/286KB）
- 无标注数据集：110,000条评论/11.5MB

数据集来源

数据源自韩国在线社区DC Inside的“实时最佳画廊”论坛。

数据集下载

下载链接

模型性能

提供了单任务和多任务设置下的分类性能，包括偏好、亵渎和偏见任务的AUROC和PRROC。
详细性能指标包括AUROC、F1-score和PRROC，针对每种特定偏见类型。

引用信息

若此工作对您的研究有用，请引用以下论文：

@misc{choi2023largescale, title={Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services}, author={Dasol Choi and Jooyoung Song and Eunsun Lee and Jinwoo Seo and Heejune Park and Dongbin Na}, year={2023}, eprint={2310.04313}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

KoMultiText数据集的构建基于韩国知名社交网络服务平台的用户生成内容，旨在解决在线社区中存在的偏见和有害语言问题。数据集从韩国知名在线社区DC Inside的“实时最佳画廊”论坛中收集了150,000条评论，其中38,361条评论被标注为训练集，2,000条评论被标注为测试集，另有110,000条未标注数据。每条评论均标注了偏好、粗俗语言以及九种不同类型的偏见，支持多任务学习框架下的文本分类任务。

使用方法

KoMultiText数据集的使用方法包括多任务和单任务分类模型的训练与评估。用户可以通过提供的PyTorch实现代码，利用RoBERTa、KR-BERT、KoELECTRA和KoBigBird等预训练模型进行多任务或单任务分类。数据集支持对偏好、粗俗语言和偏见类型的分类任务，用户可根据需求选择相应的模型进行训练和测试。此外，数据集的性能评估指标包括AUROC、F1-score和PRROC，用户可通过这些指标验证模型的分类效果。

背景与挑战

背景概述

KoMultiText数据集由Dasol Choi等研究人员于2023年提出，旨在解决韩国在线社区中存在的偏见和有害语言问题。该数据集从韩国知名社交网络平台DC Inside的论坛中收集了150,000条评论，涵盖了偏好、粗俗语言以及九种不同类型的偏见标注。通过多任务学习框架，KoMultiText为韩国语文本分类任务提供了全面的数据支持，推动了韩国语自然语言处理领域的发展。该数据集的研究成果已被NeurIPS 2023的SoLaR研讨会接受，展示了其在社会责任感语言建模研究中的重要价值。

当前挑战

KoMultiText数据集在构建和应用过程中面临多重挑战。首先，韩国语作为一种高度依赖上下文和语境的复杂语言，其偏见和有害语言的识别需要深入理解文化背景和语言习惯，这对标注的准确性和一致性提出了极高要求。其次，数据集的构建依赖于真实在线社区的用户生成内容，这些内容往往包含大量噪声和不规范表达，增加了数据清洗和预处理的难度。此外，多任务学习框架的设计需要在多个分类任务之间平衡性能，这对模型的泛化能力和计算效率提出了挑战。尽管基于BERT的模型在实验中表现出色，但在实际应用中仍需进一步优化以适应多样化的在线场景。

常用场景

经典使用场景

KoMultiText数据集在自然语言处理领域中被广泛应用于多任务学习场景，尤其是在韩语文本的偏见言论检测和分类任务中。通过提供包含偏好、粗俗语言和九种偏见类型的标注数据，该数据集能够支持多种分类任务的并行训练，帮助研究人员构建更高效的韩语文本分类模型。

解决学术问题

KoMultiText数据集解决了韩语在线社区中偏见言论检测的学术研究难题。通过提供大规模、多样化的韩语文本数据，研究人员能够深入分析在线言论中的偏见模式，并开发出超越人类准确度的分类算法。这不仅填补了韩语偏见言论检测领域的空白，还为多任务学习模型的设计提供了宝贵的数据支持。

实际应用

在实际应用中，KoMultiText数据集被用于优化韩语在线社区的内容审核系统。通过训练基于BERT的模型，该数据集能够帮助平台自动识别和过滤有害言论，从而提升社区的健康度和用户体验。此外，该数据集还可用于教育领域，帮助开发语言学习工具，提升学生对偏见言论的识别能力。

数据集最近研究