Financial Phrase Bank v.1.0

github2023-05-16 更新2024-05-31 收录

下载链接：

https://github.com/maxwellsarpong/NLP-financial-text-processing-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约4840个金融和经济领域的句子，由16位具有金融背景的标注者进行情感分类（正面、中性、负面）。数据集旨在为金融情感分析提供高质量的训练数据，支持多种模型技术的基准测试。

This dataset comprises approximately 4,840 sentences from the financial and economic sectors, which have been classified for sentiment (positive, neutral, negative) by 16 annotators with a financial background. The dataset is designed to provide high-quality training data for financial sentiment analysis, supporting benchmark testing for various model technologies.

创建时间：

2020-07-15

原始信息汇总

数据集概述

数据集名称

Financial Phrase Bank v.1.0

数据集目的

解决金融情感分析中训练数据缺乏的问题，提供约5000个人工标注的句子，用于建立模型训练和评估的标准。

数据集内容

句子数量：4840句
标注人员：16人，其中3人为研究人员，13人为Aalto大学商学院的硕士生，专业主要为金融、会计和经济学。
标注方式：每个句子由5至8名标注者进行标注，根据多数同意的程度，形成了4个不同级别的参考数据集。

参考数据集详情

100%同意：所有标注者一致同意的句子 [文件=Sentences_AllAgree.txt]
75%以上同意：超过75%的标注者同意的句子 [文件=Sentences_75Agree.txt]
66%以上同意：超过66%的标注者同意的句子 [文件=Sentences_66Agree.txt]
50%以上同意：超过50%的标注者同意的句子 [文件=Sentences_50Agree.txt]

数据格式

文件格式：机器可读的"@"分隔格式
示例：The operating margin came down to 2.4 % from 5.7 % .@negative

数据集使用

学术使用：引用Malo, P., Sinha, A., Korhonen, P., Wallenius, J., & Takala, P. (2014)的论文。
非学术使用：需联系数据集维护者获取适当许可。

搜集汇总

数据集介绍

构建方式

Financial Phrase Bank v.1.0 数据集的构建旨在解决金融情感分析领域高质量训练数据匮乏的问题。该数据集由16位具有金融市场背景知识的标注者共同完成，其中包括3名研究人员和13名来自阿尔托大学商学院的研究生。标注任务要求将每个句子分类为正面、负面或中性情感，且仅基于句子中明确提供的信息进行判断。为确保标注的客观性，数据集根据多数同意程度形成了四种不同的参考标准，涵盖100%、75%、66%和50%的同意率。

特点

该数据集包含4840个金融和经济领域的句子，每个句子经过5至8次独立标注，确保了数据的高质量和多样性。数据集提供了四种不同多数同意率的参考标准，便于研究者在不同严格程度下进行模型训练和评估。所有数据以机器可读的格式存储，句子与情感标签之间以“@”符号分隔，便于直接应用于机器学习任务。

使用方法

Financial Phrase Bank v.1.0 数据集适用于金融情感分析模型的训练和评估。研究者可根据需求选择不同同意率的参考标准文件进行实验，例如100%同意率的文件可用于高精度模型的开发，而50%同意率的文件则适用于更广泛的场景。数据格式简单明了，可直接加载至机器学习框架中进行预处理和模型训练。使用该数据集时，建议引用相关文献以支持学术研究的透明性和可重复性。

背景与挑战

背景概述

Financial Phrase Bank v.1.0 数据集由芬兰阿尔托大学商学院的研究团队于2014年创建，旨在解决金融情感分析领域高质量训练数据匮乏的问题。该数据集由Pekka Malo、Ankur Sinha等研究人员主导开发，得到了Emil Aaltonen基金会和芬兰科学院的资助。数据集包含约5000条金融和经济领域的句子，每条句子由16位具有金融市场背景知识的注释者进行情感标注，分为正面、负面或中性三类。该数据集的发布为金融文本情感分析提供了基准数据，推动了相关领域的研究进展。

当前挑战

Financial Phrase Bank v.1.0 数据集面临的挑战主要体现在两个方面。首先，金融文本的情感分析具有高度专业性和复杂性，情感倾向的判断往往依赖于上下文和专业知识，这对标注的一致性和准确性提出了较高要求。其次，数据集的构建过程中，注释者之间的意见分歧较大，尽管通过多数投票机制形成了四种不同一致性标准的参考数据集，但如何定义最优的黄金标准仍是一个开放性问题。此外，金融领域的动态性和多变性也使得数据集的时效性和泛化能力面临挑战。

常用场景

经典使用场景

Financial Phrase Bank v.1.0 数据集在金融情感分析领域具有广泛的应用。该数据集通过提供约5000条经过人工标注的金融和经济领域句子，为研究人员和开发者提供了一个标准化的基准，用于训练和评估情感分析模型。这些句子被分类为正面、负面或中性，特别关注其对股票价格的影响。这一数据集在金融文本的情感分类任务中表现出色，尤其是在处理复杂的金融术语和语境时，能够有效提升模型的准确性和鲁棒性。

解决学术问题

Financial Phrase Bank v.1.0 数据集解决了金融情感分析领域中的关键问题，即高质量训练数据的缺乏。通过提供大量经过多轮人工标注的金融文本，该数据集为研究人员提供了一个可靠的基准，用于开发和验证情感分析模型。这不仅推动了金融文本情感分类技术的发展，还为学术界提供了一个标准化的评估框架，使得不同模型之间的比较更加客观和科学。

衍生相关工作

基于 Financial Phrase Bank v.1.0 数据集，许多经典的研究工作得以展开。例如，Malo 等人（2014）的研究提出了基于语义倾向的金融文本分类方法，为后续的金融情感分析研究奠定了基础。此外，该数据集还激发了大量关于深度学习模型在金融文本分析中的应用研究，如基于LSTM和BERT的金融情感分类模型，进一步推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集