PoliticalK.O
收藏arXiv2025-09-18 更新2025-11-21 收录
下载链接:
https://github.com/seungukyu/PoliticalK.O
下载链接
链接失效反馈官方服务:
资源简介:
PoliticalK.O数据集是针对韩国政治话语构建的大规模数据集,包含2024年期间发表的政治新闻文章和用户评论,共计11.4万篇文章和928万条用户评论。该数据集旨在反映当代韩国社会政治的演变,并为评估和改进现有的冒犯性语言检测方法提供基础。由于数据集缺乏真实的冒犯性标签,研究人员采用了多种方法进行预测,并使用伪标签作为评估性能的基准。该数据集为研究冒犯性语言检测和解决相关社会问题提供了宝贵资源。
The PoliticalK.O dataset is a large-scale corpus constructed for South Korean political discourse, encompassing political news articles and user comments published in 2024, with a total of 114,000 articles and 9.28 million user comments. This dataset is designed to reflect the evolution of contemporary South Korean social politics, and lay a foundation for evaluating and advancing existing offensive language detection methods. As the dataset lacks gold-standard offensive labels, researchers adopted multiple approaches for prediction and utilized pseudo-labels as the benchmark for performance evaluation. This dataset offers a valuable resource for research on offensive language detection and the resolution of related social issues.
提供机构:
庆熙大学,首尔,韩国
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
在政治话语动态监测的背景下,PoliticalK.O数据集通过系统采集2024年韩国最大新闻平台Naver上的政治新闻与用户评论构建而成。该数据集涵盖总统府、国会/政党、朝鲜问题等六大政治主题,共收录11.4万篇新闻文章及928万条用户评论,所有文本均经过长度筛选以确保数据质量。针对缺乏标注真值的新增评论,研究团队采用集成标注策略,通过监督集成判断、提示变体集成判断与多轮辩论推理判断三类方法论框架,为每条评论生成具有理论依据的伪标签。
使用方法
研究者可通过三种核心方法论框架开发利用该数据集:监督集成判断融合五种现有韩语冒犯性语言数据集训练的最优模型,采用多数投票机制进行预测;提示变体集成判断结合三种大语言模型与五种提示模板,通过上下文学习实现零样本分类;多轮辩论推理判断则通过智能体角色扮演与立场辩论,模拟人类对政治文本的多角度解读。评估阶段可借助基于多数投票构建的基准信任标签,系统分析各方法在当代政治话语中的泛化能力与决策一致性。
背景与挑战
背景概述
PoliticalK.O数据集由韩国中央大学研究团队于2024年构建,聚焦当代韩国政治话语中的冒犯性语言检测。该数据集收录了11.4万篇政治新闻及928万条用户评论,涵盖总统府、国会政党、朝鲜事务等六大政治议题。其创新性在于突破了传统依赖过时数据的局限,通过集成监督集成判断、提示变体集成判断与多轮辩论推理判断三重方法论,为动态演进的网络政治话语分析提供了时效性基准。该研究显著推进了韩语自然语言处理领域对实时社会政治语境的理解,为跨文化网络治理研究提供了重要数据支撑。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决政治语境中冒犯性语言的动态演化特性,包括对新兴政治隐喻、意识形态讽刺等隐性攻击的识别难题,以及标注者因政治立场差异导致的标注主观性问题。在构建过程中,核心挑战在于缺乏真实标注数据下的质量保障,需通过集成过时标注数据集与大语言模型推理生成伪标签,同时需克服韩语政治话语中特有的敬语体系与隐晦表达对模型泛化能力的影响,以及海量数据清洗过程中对上下文关联性的保持需求。
常用场景
经典使用场景
在当代自然语言处理研究中,PoliticalK.O数据集作为韩国政治言论分析的重要资源,其经典应用场景聚焦于大规模在线评论的冒犯性语言检测。该数据集通过整合2024年全年新闻平台的政治讨论内容,为研究时效性语言现象提供了数据基础。研究者通常利用其细粒度的政治话题分类体系,探索不同政治语境下语言攻击性的演变规律,特别是针对总统府、国会政党等六大核心政治领域的对比分析,为跨领域政治语言学提供了实证研究平台。
解决学术问题
该数据集有效解决了冒犯性语言研究中的时效性缺失问题,突破了传统研究依赖过时语料的局限。通过构建当代政治话语的标注框架,为评估语言模型在未知文本上的泛化能力建立了基准。其提出的三种判别方法(监督集成、提示变体集成、多轮辩论推理)系统性地应对了缺乏真实标注数据时的技术挑战,为动态语境下的语言敏感性研究提供了方法论创新,推动了计算语言学与社会政治分析的跨学科融合。
实际应用
在现实应用层面,PoliticalK.O为社交媒体内容审核系统提供了关键训练数据,助力平台识别具有政治敏感性的攻击性言论。其构建的伪标注机制为缺乏人工标注资源的实际场景提供了可行解决方案,相关技术已被应用于韩国主流新闻平台的评论过滤系统。该数据集还成为政府机构监测网络舆论动态的重要参考,通过分析政治话题与攻击性语言的关联特征,为制定网络空间治理政策提供数据支撑。
数据集最近研究
最新研究方向
在政治言论分析领域,PoliticalK.O数据集的前沿研究聚焦于开发无需真实标注的冒犯性语言检测框架。通过集成监督学习、提示变体集成与多轮辩论推理三种创新方法,研究揭示了大型语言模型在动态政治语境中的泛化潜力。该方向与当前社会媒体实时内容审核需求紧密关联,推动了基于上下文感知的自动化检测系统发展,为应对新兴政治话语中的语言演变提供了可扩展的解决方案。
相关研究论文
- 1通过庆熙大学,首尔,韩国 · 2025年
以上内容由遇见数据集搜集并总结生成



