five

takala/financial_phrasebank|金融数据集|情感分析数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
金融
情感分析
下载链接:
https://hf-mirror.com/datasets/takala/financial_phrasebank
下载链接
链接失效反馈
资源简介:
FinancialPhrasebank是一个用于情感分类的金融新闻句子数据集。该数据集包含4840个英语句子,这些句子根据5-8个注释者的同意率进行分类。数据集分为四个配置,分别基于注释者的同意率(50%、66%、75%和100%)。数据集的创建目的是为了解决金融情感分析中高质量训练数据缺乏的问题。数据集由16名具有金融市场背景知识的人进行注释,注释者包括研究人员和硕士生。数据集的使用受到Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License的限制。

FinancialPhrasebank是一个用于情感分类的金融新闻句子数据集。该数据集包含4840个英语句子,这些句子根据5-8个注释者的同意率进行分类。数据集分为四个配置,分别基于注释者的同意率(50%、66%、75%和100%)。数据集的创建目的是为了解决金融情感分析中高质量训练数据缺乏的问题。数据集由16名具有金融市场背景知识的人进行注释,注释者包括研究人员和硕士生。数据集的使用受到Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License的限制。
提供机构:
takala
原始信息汇总

数据集概述

  • 名称: FinancialPhrasebank
  • 语言: 英语
  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类分类, 情感分类
  • 标签创建者: 专家生成
  • 语言创建者: 发现

数据集结构

数据实例

json { "sentence": "Pharmaceuticals group Orion Corp reported a fall in its third-quarter earnings that were hit by larger expenditures on R&D and marketing .", "label": "negative" }

数据字段

  • sentence: 数据集中的分词行,数据类型为字符串。
  • label: 对应类别的标签,数据类型为类别标签,类别包括negative, neutral, positive。

数据分割

  • sentences_allagree: 100%注释者同意,实例数2264。
  • sentences_75agree: >=75%注释者同意,实例数3453。
  • sentences_66agree: >=66%注释者同意,实例数4217。
  • sentences_50agree: >=50%注释者同意,实例数4846。

数据集创建

来源数据

  • 初始数据收集和规范化: 从LexisNexis数据库下载的英语金融新闻,随机选取10,000篇文章,筛选后得到约5000个句子。
  • 源语言生产者: 多位金融记者。

注释

  • 注释过程: 4840个句子由16位具有金融背景知识的人士进行注释。
  • 注释者: 3位研究人员和13位Aalto大学商学院的硕士生,专业主要为金融、会计和经济学。

数据集使用考虑

  • 偏见讨论: 所有注释者来自同一机构,因此注释者间的一致性应考虑此因素。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FinancialPhrasebank数据集的构建基于从LexisNexis数据库中提取的英文金融新闻文章。首先,从OMX赫尔辛基上市公司的相关新闻中随机选取了10,000篇文章,通过自动化网络爬虫获取。随后,排除了不含任何词典实体的句子,最终筛选出53,400个包含至少一个词典实体的句子。从中随机抽取约5000个句子,并由16名具有金融市场背景知识的标注者进行情感分类,分为正面、负面和中性三类。标注过程涉及5至8次重复标注,以确保标注的一致性和准确性。
特点
FinancialPhrasebank数据集的显著特点在于其专注于金融和经济领域的情感分析,涵盖了4840个英文句子。数据集根据标注者的一致性分为四种配置:50%、66%、75%和100%的一致性。这种细分提供了不同程度的标注一致性,使得研究者可以根据需求选择合适的子集进行实验。此外,数据集的标注者均来自同一机构,确保了标注过程的专业性和一致性。
使用方法
使用FinancialPhrasebank数据集时,研究者可以将其应用于金融文本的情感分类任务。数据集提供了四种不同一致性水平的配置,用户可根据实验需求选择合适的配置进行训练和评估。数据集的结构简单明了,包含'sentence'和'label'两个字段,分别表示文本内容和对应的情感标签。用户可以通过加载数据集并进行预处理,结合机器学习或深度学习模型进行情感分类模型的训练和测试。
背景与挑战
背景概述
在金融领域,情感分析作为一种新兴技术,旨在从金融新闻和报告中提取情感倾向,以辅助投资者决策。takala/financial_phrasebank数据集由Pekka Malo和Ankur Sinha等研究人员于2014年创建,旨在填补金融情感分析领域高质量训练数据的空白。该数据集包含4840条来自金融新闻的英文句子,经过16名具有金融背景的专家标注,涵盖了正面、负面和中性三种情感类别。其核心研究问题在于如何准确分类金融文本中的情感倾向,从而为金融市场的情感分析模型提供基准。该数据集的发布极大地推动了金融情感分析领域的发展,为后续研究提供了宝贵的资源。
当前挑战
尽管takala/financial_phrasebank数据集在金融情感分析领域具有重要意义,但其构建过程中仍面临诸多挑战。首先,金融文本的情感标注需要高度专业知识,标注者的背景和经验对标注结果有显著影响。其次,数据集的构建涉及大量人工标注,如何确保标注的一致性和准确性是一个难题。此外,数据集的样本量相对有限,可能不足以覆盖所有金融文本的复杂情感表达。最后,由于标注者均来自同一机构,可能存在潜在的偏见,影响数据集的泛化能力。这些挑战需要在未来的研究中进一步解决,以提升金融情感分析模型的性能和可靠性。
常用场景
经典使用场景
在金融领域,takala/financial_phrasebank数据集被广泛用于情感分类任务。该数据集包含4840条来自金融新闻的句子,每个句子都被标注为正面、负面或中性情感。通过训练模型识别这些情感标签,研究人员和从业者能够开发出能够自动分析金融文本情感的工具,从而为投资者提供决策支持。
实际应用
在实际应用中,takala/financial_phrasebank数据集被用于开发金融新闻情感分析工具,这些工具可以帮助投资者和金融机构实时监控市场情绪。例如,投资顾问可以使用这些工具来分析新闻报道,评估其对特定股票或市场的潜在影响,从而做出更明智的投资决策。此外,金融机构还可以利用这些工具来监控社交媒体和新闻报道,及时发现可能影响市场稳定性的负面情绪。
衍生相关工作
基于takala/financial_phrasebank数据集,许多研究工作得以展开,推动了金融情感分析领域的发展。例如,一些研究通过改进模型架构和引入外部知识库,提高了情感分类的准确性。此外,该数据集还被用于开发多语言情感分析模型,以适应全球金融市场的需求。这些衍生工作不仅提升了金融情感分析的技术水平,还为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集