KoPolitic-Benchmark-Dataset

arXiv2023-11-03 更新2024-06-21 收录

下载链接：

https://github.com/Kdavid2355/KoPolitic-Benchmark-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KoPolitic-Benchmark-Dataset是由首尔科技大学、庆熙大学和浦项科技大学联合创建的一个大型韩语文本分类数据集，旨在通过自动识别在线新闻文章中的政治意图来解决文本中隐含意图难以区分的问题。该数据集包含12,000篇新闻文章，均来自韩国六大最具代表性的报纸的政治版块，每篇文章都标注了政治倾向（自由或保守倾向）和亲政府程度，使用5点量表和6点量表进行评估。数据集的创建过程涉及人工标注和多轮交叉检查，确保数据的质量和平衡。该数据集主要应用于政治文本的自动分类，特别是在多任务学习框架下，同时处理政治倾向和亲政府程度的分类问题，为研究者提供了一个有效的工具来分析和理解新闻文章中的复杂政治信息。

KoPolitic-Benchmark-Dataset is a large-scale Korean text classification dataset jointly created by Seoul National University of Science and Technology, Kyung Hee University, and Pohang University of Science and Technology (POSTECH). It aims to address the challenge of differentiating implicit intentions in texts by automatically recognizing political intent within online news articles. The dataset comprises 12,000 news articles sourced from the politics sections of South Korea's six most prominent newspapers. Each article is annotated with two metrics: political leaning (liberal or conservative) and pro-government degree, which are evaluated using 5-point and 6-point scales respectively. The dataset development process incorporates manual annotation and multi-round cross-checks to ensure data quality and balance. This dataset is primarily applied to automatic classification of political texts, especially under the multi-task learning framework that simultaneously handles the classification tasks of both political leaning and pro-government degree, providing researchers with an effective tool to analyze and comprehend the complex political information embedded in news articles.

提供机构：

首尔科技大学庆熙大学浦项科技大学

创建时间：

2023-11-03

搜集汇总

数据集介绍

构建方式

在政治文本分析领域，KoPolitic-Benchmark-Dataset的构建遵循了严谨的实证研究范式。该数据集从韩国六家最具代表性的在线新闻杂志的政治板块中，系统性地采集了12,000篇新闻文章，旨在覆盖保守、自由与中立等多种政治倾向。其中5,000篇文章由经过培训的五人标注团队进行精细的人工标注，标注过程设立了明确的仲裁机制以确保一致性。每篇文章均被同时赋予两个维度的标签：一是采用5级量表衡量的政治倾向（从自由到保守），二是采用6级量表（包含“无相关”类别）衡量的亲政府程度。数据收集策略平衡了不同政治倾向媒体的样本量，各采集2,000篇文章，以缓解潜在的标签分布偏差。剩余的7,000篇未标注文章则为无监督学习研究提供了资源。

特点

该数据集的核心特征在于其面向真实世界长文本的多任务标注体系。与以往侧重于短文本或单一分类任务的政治文本数据集不同，KoPolitic同时捕捉文本的政治倾向与对政府的态度这两个相互关联又彼此独立的语义维度。其文本样本通常包含超过500个词元，属于长文本范畴，要求模型具备理解复杂上下文和长距离依赖关系的能力。数据集的标签体系设计精细，政治倾向采用5级有序分类，亲政府程度则采用包含“无相关”类别的6级分类，这为研究细微的政治意图和情感表达提供了更丰富的分析粒度。此外，数据集的训练集部分保持了真实世界中常见的类别不平衡分布，而测试集则被构造为近乎均匀的分布，这为评估模型在平衡与不平衡场景下的鲁棒性创造了条件。

使用方法

该数据集主要服务于基于深度学习的韩语文本分类研究，特别是政治意图识别任务。研究者可利用该数据集对预训练语言模型进行微调，以同时完成政治倾向分类和亲政府程度分类这两个子任务。实践表明，基于Transformer架构的模型，如KoBERT、KoELECTRA以及特别适用于长文本的KoBigBird，在该数据集上均能取得良好的基线性能。数据集支持单任务与多任务两种学习范式。使用多任务学习架构（如论文中提出的KoPolitic模型）能够共享底层特征表示，在提升分类性能的同时，显著降低计算内存与推理时间开销。数据集的官方划分建议按照8:1:1的比例分割训练集、验证集和测试集。研究人员可通过论文提供的公开链接获取全部数据、源代码及预训练模型，用于学术研究或实际应用开发。

背景与挑战

背景概述

在数字媒体时代，在线新闻文本的多样性与复杂性日益凸显，用户面临信息过载与潜在偏见识别的双重困境。2023年11月，由首尔科技大学、庆熙大学及浦项工科大学联合研究团队发布的KoPolitic-Benchmark-Dataset，标志着韩语政治文本分析领域的重要进展。该数据集聚焦于在线报纸中隐含政治意图的自动识别，核心研究问题在于通过深度学习模型解析长文本语境，同时判定文章的政治倾向与亲政府程度。其创新性在于构建了包含12,000篇政治新闻的大规模多任务标注语料，采用五级政治光谱与六级政府立场细粒度标注体系，突破了传统二分类或短文本分析的局限，为韩语自然语言处理在政治传播学领域的应用提供了关键基准。

当前挑战

该数据集致力于解决政治文本多维度意图识别的核心挑战：首先，政治倾向的判定需捕捉记者在长文本中隐含的意识形态光谱，而韩语复杂的形态学结构与含蓄表达方式加剧了语义解析的难度；其次，亲政府程度的评估需区分事实陈述与情感倾向，尤其在政府非直接提及的语境中易产生标注模糊性。在构建过程中，研究团队面临多重挑战：数据采集需平衡六家代表性报社的政治立场以规避样本偏差；人工标注涉及五名标注者对微妙政治意图的主观解读，需通过多轮讨论与仲裁确保标注一致性；长文本处理要求模型具备超越传统BERT架构的序列建模能力，以捕捉跨段落语义关联。此外，真实世界数据分布的不均衡性要求模型在非均匀类别上保持稳健性能。

常用场景

经典使用场景

在自然语言处理领域，KoPolitic-Benchmark-Dataset为韩语政治文本分析提供了重要基准。该数据集包含来自韩国六大代表性新闻机构的12,000篇政治新闻文章，每篇文章均标注了政治倾向（自由至保守的五级量表）和亲政府程度（六级量表，含“无”类别）。其经典使用场景在于训练和评估深度学习模型，特别是基于Transformer架构的韩语预训练模型（如KoBERT、KoBigBird和KoELECTRA），以同时识别文本中的政治意图和亲政府态度。通过多任务学习框架，研究者能够利用长文本序列（通常超过500个词元）全面捕捉新闻文章的语义信息，从而推动韩语政治文本分类技术的发展。

衍生相关工作

KoPolitic-Benchmark-Dataset衍生了一系列相关经典工作，主要集中在韩语政治文本分类和多任务学习模型的优化上。基于该数据集，研究者开发了KoPolitic模型，它利用KoBigBird架构处理长序列文本，并通过多任务学习同时预测政治倾向和亲政府程度，在分类性能上超越了单任务基线。此外，该数据集促进了针对韩语形态学挑战的模型改进，例如结合注意力机制分析高频词汇与政治意图的关联。这些工作扩展了政治文本识别的边界，为后续研究提供了可复现的基准，并激励了更多关于跨语言政治偏见检测和数据不平衡问题的探索。

数据集最近研究