금융 뉴스 문장 감성 분석 데이터셋 (finance sentiment corpus)

github2023-11-03 更新2024-05-31 收录

下载链接：

https://github.com/ukairia777/finance_sentiment_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于金融情感分析的文本数据集，包含标注为积极(positive)、中性(neutral)和消极(negative)的韩国语金融新闻句子。数据集是通过翻译现有的英语金融新闻情感分析数据集并进行人工校对得到的，旨在用于开发韩国语金融分析模型。

This is a text dataset designed for financial sentiment analysis, comprising Korean financial news sentences annotated as positive, neutral, and negative. The dataset was created by translating an existing English financial news sentiment analysis dataset and subsequently undergoing manual proofreading. It is intended for the development of Korean financial analysis models.

创建时间：

2022-01-11

原始信息汇总

数据集概述

数据集名称

금융 뉴스 문장 감성 분석 데이터셋 (finance sentiment corpus)

数据集描述

用于金融情感分析的文本数据集，包含标记为积极(positive)、中立(neutral)、消极(negative)的文本。
该数据集是基于英语金融新闻情感分析数据集翻译而成的韩语版本。
翻译后经过人工校对，并在相同大小的深度学习模型中与英语数据集达到相同的测试准确度。

数据集内容

语言：英语、韩语
数据来源：Finance Phrase Bank (Malo et al., 2014)
数据量：4,846条

英语数据详情

来源：Finance Phrase Bank (Malo et al., 2014)
从金融新闻数据中提取约4,840个句子
由16名具有专业知识的科研人员手动标注情感标签：positive, neutral, negative

韩语数据详情

基于上述英语数据翻译并校对的韩语数据。

性能测试结果

LSTM模型：
- 英语测试数据准确度：77.38%
- 韩语测试数据准确度：77.95%
BERT模型：
- 英语测试数据准确度：85.85%
- 韩语测试数据准确度：85.82%

当前最佳模型

Finbert：一个针对金融通信预训练的语言模型。

搜集汇总

数据集介绍

构建方式

금융 뉴스 문장 감성 분석 데이터셋은 금융 감성 분석을 위해 기존의 영어 금융 뉴스 데이터셋인 Finance Phrase Bank를 기반으로 구축되었습니다. 원본 데이터셋은 16명의 전문 연구자들이 금융 뉴스에서 추출한 4,840여 개의 문장을 수동으로 라벨링하여 구성되었으며, 이를 한국어로 번역 및 검수하여 한국어 버전을 생성하였습니다. 번역 과정에서 육안 검수를 통해 데이터의 정확성을 보장하였으며, 동일한 딥러닝 모델에서 영어 데이터와 일치하는 성능을 확인하였습니다.

特点

이 데이터셋은 금융 뉴스 문장에 대한 감성 분석을 위해 설계되었으며, 각 문장은 긍정(positive), 중립(neutral), 부정(negative) 세 가지 감성 라벨로 분류되어 있습니다. 데이터셋은 영어와 한국어로 구성되어 있으며, 특히 한국어 데이터는 영어 원본 데이터를 번역 및 검수하여 동일한 품질을 유지하고 있습니다. 이 데이터셋은 금융 분야의 감성 분석 모델 개발에 적합하며, LSTM 및 BERT와 같은 다양한 딥러닝 모델에서 높은 정확도를 보여주었습니다.

使用方法

이 데이터셋은 금융 감성 분석 모델의 학습 및 평가에 활용될 수 있습니다. 데이터셋은 훈련 데이터와 테스트 데이터로 8:2 비율로 분할되어 있으며, 훈련 데이터의 20%는 검증 데이터로 사용됩니다. 사용자는 LSTM, BERT 등의 딥러닝 모델을 활용하여 데이터셋을 학습시키고, 모델의 성능을 평가할 수 있습니다. 특히, 한국어 데이터의 경우 klue/bert-base와 같은 한국어 사전 학습 모델을 사용하여 높은 정확도를 달성할 수 있습니다. 데이터셋은 CSV 파일 형식으로 제공되며, 문장과 해당 감성 라벨이 포함되어 있어 쉽게 활용할 수 있습니다.

背景与挑战

背景概述

금융 뉴스 문장 감성 분석 데이터셋은 금융 분야의 텍스트 데이터를 기반으로 감성 분석을 수행하기 위해 개발된 데이터셋이다. 이 데이터셋은 2014년 Malo 등에 의해 처음으로 제안된 Finance Phrase Bank를 기반으로 하며, 한국어 버전은 이를 번역 및 검수하여 생성되었다. 데이터셋은 긍정(positive), 중립(neutral), 부정(negative) 세 가지 감성 라벨로 구성되어 있으며, 금융 뉴스 문장의 감성 분석 모델 개발에 활용된다. 특히, 한국어 금융 분석 모델의 성능을 평가하고 개선하는 데 중요한 역할을 하며, 기존 영어 데이터셋과의 비교를 통해 번역 및 검수 과정의 신뢰성을 입증하였다.

当前挑战

금융 뉴스 문장 감성 분석 데이터셋은 금융 분야의 텍스트 데이터를 감성 분석하는 데 있어 몇 가지 주요한 도전 과제를 안고 있다. 첫째, 금융 뉴스 문장은 전문 용어와 복잡한 문맥을 포함하고 있어 정확한 감성 라벨링이 어렵다. 둘째, 한국어로의 번역 과정에서 원문의 의미와 감성을 정확히 유지하는 것이 중요한 과제로, 번역 후 육안 검수를 통해 이를 보완하였다. 셋째, 기계 학습 모델을 활용한 감성 분석 시, 한국어와 영어 간의 언어적 차이로 인해 모델의 일반화 성능을 유지하는 것이 어렵다. 이러한 도전 과제를 극복하기 위해 다양한 모델의 성능 비교 및 최적화가 지속적으로 이루어지고 있다.

常用场景

经典使用场景

금융 뉴스 문장 감성 분석 데이터셋은 금융 분야의 텍스트 데이터를 기반으로 감성 분석 모델을 개발하고 평가하는 데 주로 사용됩니다. 특히, 이 데이터셋은 긍정, 중립, 부정의 세 가지 감정 라벨을 포함하고 있어, 금융 뉴스의 감정적 경향성을 분석하는 데 적합합니다. 이를 통해 금융 시장의 동향을 예측하거나 투자 결정을 지원하는 데 활용될 수 있습니다.

衍生相关工作

금융 뉴스 문장 감성 분석 데이터셋은 다양한 관련 연구를 촉진하였습니다. 특히, FinBERT와 같은 사전 학습된 언어 모델은 이 데이터셋을 기반으로 금융 텍스트의 감성 분석 성능을 크게 향상시켰습니다. 또한, 다국어 감성 분석 모델의 개발과 비교 연구를 통해, 금융 텍스트 데이터의 감성 분석에 대한 이해를 깊이 있게 확장시켰습니다. 이러한 연구들은 금융 분야의 텍스트 데이터 분석 기술의 발전에 중요한 기여를 하고 있습니다.

数据集最近研究