FinanceInc/auditor_sentiment
收藏Hugging Face2022-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FinanceInc/auditor_sentiment
下载链接
链接失效反馈官方服务:
资源简介:
Auditor Sentiment数据集是一个用于情感分类的数据集,包含数千条来自英文财经新闻的句子,每条句子都被标注为正面、中性或负面情感。数据集的创建目的是为了提高情感分类的准确性,之前的现成情感分类工具只能达到70%的F1分数。数据集由16位具有金融市场背景知识的专家进行标注,且标注一致性超过75%。数据集的结构包括句子和对应的情感标签,数据被随机分为训练集和测试集,比例为75/25。数据集的语言为英语,且不包含个人或敏感信息。
Auditor Sentiment Dataset is a sentiment classification dataset containing thousands of sentences sourced from English financial news. Each sentence is annotated with one of three sentiment labels: positive, neutral, or negative. This dataset was developed to improve the accuracy of sentiment classification, as existing off-the-shelf sentiment classification tools only achieved a 70% F1-score. It was annotated by 16 experts with financial market background knowledge, with inter-annotator agreement exceeding 75%. The dataset structure includes sentences and their corresponding sentiment labels, and the data is randomly split into training and test sets at a 75:25 ratio. The dataset is in English and does not contain any personal or sensitive information.
提供机构:
FinanceInc
原始信息汇总
数据集概述
数据集名称
- 名称: Auditor_Sentiment
- 别名: Auditor Sentiment
数据集描述
- 描述: 该数据集包含从金融新闻中提取的数千个英文句子,按情感进行分类。
- 目的: 收集审计员评价,以提高情感分析的性能。
语言和多语言性
- 语言: 英语
- 多语言性: 单语种
数据集大小和类别
- 大小: 1K<n<10K
任务和支持的任务
- 任务: 文本分类
- 支持的任务: 多类分类, 情感分类
数据集结构
- 数据实例: 每个实例包含一个句子及其对应的情感标签(positive, neutral, negative)。
- 数据字段:
- sentence: 数据集中的一个分词行
- label: 对应的类别标签,字符串形式:positive - (2), neutral - (1), negative - (0)
- 数据分割: 随机创建的训练/测试分割,比例为75/25。
数据集创建
- 来源数据: 英文新闻报告
- 注释过程: 由16名具有金融市场背景知识的人员对4840个句子进行注释,选择内部注释一致性大于75%的子集。
- 注释者: 来自SME列表,具体姓名由sue@demo.org持有。
使用数据注意事项
- 偏见讨论: 所有注释者来自同一机构,因此在理解内部注释一致性时应考虑此因素。
- 许可证: Demo.Org Proprietary - DO NOT SHARE
搜集汇总
数据集介绍

构建方式
在金融文本情感分析领域,Auditor_Sentiment数据集通过系统化流程构建而成。其源数据源自英文财经新闻报告,由多位审计专业人士撰写,确保了文本的专业性与领域相关性。数据标注过程严谨,从4840个句子中筛选出标注者间一致性超过75%的子集,并由16位具备金融市场背景知识的专家进行人工标注,最终形成包含正面、中性和负面三类情感标签的高质量语料。
特点
该数据集专为金融领域情感分析设计,其核心特点在于领域特异性与标注可靠性。所有句子均提取自财经新闻,内容聚焦企业财报、市场动态等专业语境,与通用情感数据集形成显著区别。标注工作由同一机构的领域专家完成,虽可能引入机构特定视角,但确保了标注标准的内在一致性,且标注者间一致性阈值设定为75%,有效提升了标签的可信度。数据集规模适中,涵盖数千条句子,适用于模型训练与评估。
使用方法
该数据集主要用于文本分类任务中的情感分析研究与实践。使用者可将其按75/25比例划分的训练集与测试集进行模型训练与性能验证。在应用时,需注意其标注者背景单一可能带来的潜在偏差,建议结合其他金融语料进行交叉验证。数据字段清晰,包含‘sentence’文本与‘label’情感标签,可直接用于监督学习。鉴于其专业领域特性,该数据集尤其适合开发针对财经新闻、审计报告等金融文本的细粒度情感分析模型。
背景与挑战
背景概述
在金融文本分析领域,情感分类作为自然语言处理的重要分支,长期以来面临专业术语与语境复杂性带来的挑战。FinanceInc/auditor_sentiment数据集由相关研究机构于近期构建,旨在针对金融新闻中的审计师情感进行精准标注。该数据集汇集了数千条英文金融新闻句子,由具备金融市场背景知识的专家进行人工注释,核心研究问题聚焦于提升金融领域情感分类的准确性与专业性。其创建不仅弥补了通用情感分析工具在金融文本上性能不足的缺陷,更为审计情感分析、市场情绪监测等应用提供了高质量的数据资源,对推动金融自然语言处理技术的专业化发展具有显著影响力。
当前挑战
该数据集致力于解决金融领域情感分类的挑战,其核心难点在于金融文本中充斥着大量专业术语、隐含语义及复杂语境,通用情感模型难以准确捕捉审计师陈述中的细微情感倾向。在构建过程中,数据收集面临源数据分散与标准化处理的困难,需从多样化的金融新闻报告中提取并统一格式。注释阶段则依赖有限领域的专家,虽通过严格筛选确保注释者具备金融市场知识,但注释者均来自同一机构,可能引入潜在的群体性偏差,且注释一致性仅以75%的阈值为标准,这在一定程度上限制了数据集的泛化能力与可靠性。
常用场景
经典使用场景
在金融文本分析领域,Auditor_Sentiment数据集为情感分类任务提供了专业标注的语料基础。该数据集汇集了数千条源自英文财经新闻的句子,由具备金融市场背景知识的专家进行情感标注,涵盖积极、中性与消极三类情感。其经典使用场景在于训练和评估针对金融领域文本的细粒度情感分析模型,尤其适用于分析审计报告、财务新闻等专业文本中的情感倾向,为量化金融文本的情感色彩提供了可靠的数据支撑。
解决学术问题
该数据集有效解决了金融自然语言处理中领域适应性的关键学术问题。通用情感分析模型在金融专业文本上往往表现不佳,而Auditor_Sentiment通过专家标注构建了领域特定的情感词典与标注规范,提升了模型对金融语境中情感表达的识别精度。其意义在于弥合了通用语言模型与专业领域需求之间的鸿沟,为金融文本挖掘、风险预警等研究提供了高质量的基准数据,推动了领域自适应情感分析技术的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在金融情感词典构建与领域自适应模型优化方面。研究者常将其与Financial PhraseBank等现有金融语料库结合,通过迁移学习或集成方法提升跨领域情感分类的鲁棒性。部分工作进一步探索了情感标签与股价波动、审计风险之间的关联性,推动了计算金融学与文本挖掘的交叉研究。这些衍生工作深化了对金融文本语义结构的理解,并为后续的金融情感分析基准测试提供了重要参照。
以上内容由遇见数据集搜集并总结生成



