five

KoMultiText

收藏
github2023-12-03 更新2024-05-31 收录
下载链接:
https://github.com/Dasol-Choi/KoMultiText
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于分类偏见言论的韩语多任务文本数据集,收集自韩国知名的SNS平台。数据集包含文本样本的标注,包括偏好、亵渎和九种类型的偏见,支持多任务学习以同时分类用户生成的文本。

This dataset is a Korean multi-task text dataset designed for classifying biased speech, collected from a well-known SNS platform in South Korea. The dataset includes annotations for text samples, encompassing preferences, profanity, and nine types of biases, supporting multi-task learning to simultaneously classify user-generated texts.
创建时间:
2023-10-07
原始信息汇总

数据集概述

数据集名称

  • KoMultiText

数据集目的

  • 用于分类现实世界在线服务中的偏见言论。

数据集内容

  • 包含来自韩国知名SNS平台的文本数据。
  • 数据集提供以下类型的标注:
    • (1) 偏好
    • (2) 亵渎
    • (3) 九种偏见

数据集规模

  • 总数据量:150,000条评论
    • 有标注数据集:训练集(38,361条评论/5MB),测试集(2,000条评论/286KB)
    • 无标注数据集:110,000条评论/11.5MB

数据集来源

  • 数据源自韩国在线社区DC Inside的“实时最佳画廊”论坛。

数据集下载

模型性能

  • 提供了单任务和多任务设置下的分类性能,包括偏好、亵渎和偏见任务的AUROC和PRROC。
  • 详细性能指标包括AUROC、F1-score和PRROC,针对每种特定偏见类型。

引用信息

  • 若此工作对您的研究有用,请引用以下论文:

    @misc{choi2023largescale, title={Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services}, author={Dasol Choi and Jooyoung Song and Eunsun Lee and Jinwoo Seo and Heejune Park and Dongbin Na}, year={2023}, eprint={2310.04313}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
KoMultiText数据集的构建基于韩国知名社交网络服务平台的用户生成内容,旨在解决在线社区中存在的偏见和有害语言问题。数据集从韩国知名在线社区DC Inside的“实时最佳画廊”论坛中收集了150,000条评论,其中38,361条评论被标注为训练集,2,000条评论被标注为测试集,另有110,000条未标注数据。每条评论均标注了偏好、粗俗语言以及九种不同类型的偏见,支持多任务学习框架下的文本分类任务。
使用方法
KoMultiText数据集的使用方法包括多任务和单任务分类模型的训练与评估。用户可以通过提供的PyTorch实现代码,利用RoBERTa、KR-BERT、KoELECTRA和KoBigBird等预训练模型进行多任务或单任务分类。数据集支持对偏好、粗俗语言和偏见类型的分类任务,用户可根据需求选择相应的模型进行训练和测试。此外,数据集的性能评估指标包括AUROC、F1-score和PRROC,用户可通过这些指标验证模型的分类效果。
背景与挑战
背景概述
KoMultiText数据集由Dasol Choi等研究人员于2023年提出,旨在解决韩国在线社区中存在的偏见和有害语言问题。该数据集从韩国知名社交网络平台DC Inside的论坛中收集了150,000条评论,涵盖了偏好、粗俗语言以及九种不同类型的偏见标注。通过多任务学习框架,KoMultiText为韩国语文本分类任务提供了全面的数据支持,推动了韩国语自然语言处理领域的发展。该数据集的研究成果已被NeurIPS 2023的SoLaR研讨会接受,展示了其在社会责任感语言建模研究中的重要价值。
当前挑战
KoMultiText数据集在构建和应用过程中面临多重挑战。首先,韩国语作为一种高度依赖上下文和语境的复杂语言,其偏见和有害语言的识别需要深入理解文化背景和语言习惯,这对标注的准确性和一致性提出了极高要求。其次,数据集的构建依赖于真实在线社区的用户生成内容,这些内容往往包含大量噪声和不规范表达,增加了数据清洗和预处理的难度。此外,多任务学习框架的设计需要在多个分类任务之间平衡性能,这对模型的泛化能力和计算效率提出了挑战。尽管基于BERT的模型在实验中表现出色,但在实际应用中仍需进一步优化以适应多样化的在线场景。
常用场景
经典使用场景
KoMultiText数据集在自然语言处理领域中被广泛应用于多任务学习场景,尤其是在韩语文本的偏见言论检测和分类任务中。通过提供包含偏好、粗俗语言和九种偏见类型的标注数据,该数据集能够支持多种分类任务的并行训练,帮助研究人员构建更高效的韩语文本分类模型。
解决学术问题
KoMultiText数据集解决了韩语在线社区中偏见言论检测的学术研究难题。通过提供大规模、多样化的韩语文本数据,研究人员能够深入分析在线言论中的偏见模式,并开发出超越人类准确度的分类算法。这不仅填补了韩语偏见言论检测领域的空白,还为多任务学习模型的设计提供了宝贵的数据支持。
实际应用
在实际应用中,KoMultiText数据集被用于优化韩语在线社区的内容审核系统。通过训练基于BERT的模型,该数据集能够帮助平台自动识别和过滤有害言论,从而提升社区的健康度和用户体验。此外,该数据集还可用于教育领域,帮助开发语言学习工具,提升学生对偏见言论的识别能力。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是针对韩语的多任务文本分类研究,KoMultiText数据集的出现标志着一次重要的突破。该数据集专注于识别和分类在线服务中的偏见言论,涵盖了偏好、粗俗语言及九种不同类型的偏见。这一研究方向的兴起,与全球范围内对网络言论健康管理的日益关注密切相关。特别是在韩国,这一研究填补了大规模仇恨言论检测算法的空白。通过利用先进的BERT系列模型,该研究不仅在多任务学习框架下实现了超越人类水平的分类准确率,还为未来在社交媒体平台上的自动内容审核和言论管理提供了强有力的技术支持。这一进展不仅推动了韩语自然语言处理技术的发展,也为全球其他语言环境下的类似研究提供了宝贵的参考和启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作