news-sentiment-dataset

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/FISA-conclave/news-sentiment-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于情感分析的韩语新闻数据集，包含从韩语新闻文章中提取的企业相关句子。数据集总共有45,544个样本，其中训练集占80%（36,435个样本），测试集占20%（9,109个样本）。标签分布为：负面（9.1%）、中性（51.4%）和正面（39.5%）。数据格式为包含句子和情感标签的字典结构。数据集主要用于研究和教育目的，适用于文本分类和情感分析任务。

创建时间：

2025-12-07

原始信息汇总

Korean News Sentiment Analysis Dataset 数据集概述

数据集基本信息

数据集名称: Korean News Sentiment Analysis Dataset
托管地址: https://huggingface.co/datasets/FISA-conclave/news-sentiment-dataset
语言: 韩语 (ko)
任务类别: 文本分类、情感分析
标签: 情感分析、韩语、金融、新闻
数据规模: 10K<n<100K
制作组织: FISA-conclave
制作年份: 2025

数据集描述

这是一个从韩语新闻文章中提取的、与企业相关句子的情感分析数据集。

数据统计

总样本数: 45,544个
训练集: 36,435个 (占总样本的80%)
测试集: 9,109个 (占总样本的20%)

标签分布

标签	数量	百分比
负面 (negative)	4,161	9.1%
中性 (neutral)	23,403	51.4%
正面 (positive)	17,980	39.5%

数据结构

数据以字典形式组织，包含以下字段：

sentence: (字符串类型) 新闻文章句子。
label: (字符串类型) 情感标签，取值为 negative、neutral 或 positive。

数据来源与构建

数据来源于韩语新闻文章。
使用 KLUE-RoBERTa 模型进行情感分析。
仅包含资产类型为 ST (股票) 的企业相关句子。

使用许可

此数据集可用于研究和教育目的。

引用方式

bibtex @misc{korean-news-sentiment, title={Korean News Sentiment Analysis Dataset}, author={FISA-conclave}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/FISA-conclave/news-sentiment-dataset}} }

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，韩国新闻情感分析数据集通过系统化的流程构建而成。该数据集从韩国新闻文章中提取与企业相关的句子，并聚焦于资产类型为股票的实体。利用KLUE-RoBERTa模型进行情感标注，生成包含负面、中性和正面三类标签的句子集合。整个数据集包含45,544个样本，按照80%和20%的比例划分为训练集和测试集，确保了数据划分的科学性与实用性。

特点

该数据集在金融情感分析领域展现出鲜明的专业特性。其标注体系采用三分类情感标签，其中中性标签占比最高，达51.4%，反映了金融新闻客观陈述的普遍性。数据全部来源于韩国新闻文本，语言特征具有地域特异性。样本规模适中，介于一万到十万之间，既保证了模型训练的充分性，又避免了过大的计算负担。数据格式规范，每条记录包含句子文本和情感标签，便于直接应用于各类自然语言处理框架。

使用方法

在实践应用中，该数据集可通过Hugging Face的datasets库便捷加载。使用者可调用load_dataset函数获取已划分的训练集和测试集。对于模型训练，建议结合Transformer架构，如使用KLUE-RoBERTa作为基础模型，通过tokenizer对句子进行编码处理。训练过程中可配置适当的批大小和训练轮数，并利用数据集的测试集进行周期性评估。该数据集特别适合用于训练和评估韩语金融领域的情感分析模型，为相关研究提供基准数据支持。

背景与挑战

背景概述

在金融科技与自然语言处理交叉领域，情感分析技术对于市场情绪预测与风险管理具有关键作用。韩国新闻情感分析数据集由FISA-conclave组织于2025年构建，专注于从韩语新闻文本中提取企业相关语句，并标注负面、中立与正面情感极性。该数据集旨在解决金融领域文本，特别是股票相关新闻的自动化情感判别问题，为韩语自然语言处理模型提供高质量的监督学习资源，推动跨语言金融文本分析研究的发展。

当前挑战

该数据集针对金融新闻情感分析的核心挑战在于韩语复杂的形态学结构与领域特定术语的歧义性，例如经济指标表述中隐含的情感倾向难以准确捕捉。在构建过程中，数据采集面临新闻文本的时效性与领域覆盖均衡性问题，仅包含资产类型为股票的新闻可能导致领域偏差。此外，标签分布呈现明显的不均衡性，中立标签占比超过半数，对模型学习判别性特征与处理类别不平衡提出了较高要求。

常用场景

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于KLUE-RoBERTa的领域微调模型、针对韩语金融文本的对抗训练增强方法，以及跨语言情感分析迁移框架。这些工作不仅提升了韩语情感分析的准确性与鲁棒性，还为后续研究提供了可复现的实验范式与基线模型，推动了韩语自然语言处理在专业领域的深化应用。

数据集最近研究