Financial Obfuscated Sentiment Dataset

Name: Financial Obfuscated Sentiment Dataset
Creator: 朱拉隆功大学
Published: 2025-11-17 23:17:46
License: 暂无描述

arXiv2025-11-17 更新2025-11-19 收录

下载链接：

https://github.com/nlp-chula/finnlp-sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由朱拉隆功大学研究团队构建，专注于泰语金融年报中的隐晦情感分析。数据集规模达11,702个段落，涵盖2015至2020年泰国上市公司提交的Form 56-1报告内容，包含16个金融领域核心方面和三种情感标签。数据通过四位经济学背景标注员遵循专业标注准则完成，科恩卡帕系数达0.73-0.77显示标注一致性良好。该数据集主要应用于金融情感分析领域，旨在解决官方财务文件中故意模糊化表达的负面情感识别难题，为资本市场行为预测提供关键文本分析基础。

This dataset was constructed by a research team from Chulalongkorn University, focusing on implicit sentiment analysis in Thai financial annual reports. The dataset contains 11,702 paragraphs, covering the content of Form 56-1 reports submitted by Thai listed companies from 2015 to 2020, and includes 16 core financial dimensions and three sentiment labels. The annotation work was completed by four annotators with economics backgrounds following professional annotation guidelines, with a Cohen's Kappa coefficient ranging from 0.73 to 0.77, indicating excellent inter-annotator agreement. This dataset is primarily applied in the field of financial sentiment analysis, aiming to address the challenge of identifying deliberately vague negative sentiment in official financial documents, and providing a critical text analysis foundation for capital market behavior prediction.

提供机构：

朱拉隆功大学

创建时间：

2025-11-17

原始信息汇总

数据集概述

基本介绍

数据集名称: 金融文档情感分析数据集
主要功能: 分析泰国56-1表格文档中的方面和情感
支持格式: PDF文件（数字创建和OCR）和纯文本
输出内容: 文档在三个部分的情感比例和方面比例（风险管理部分、管理层分析和解释部分、业务可持续发展驱动部分）

数据来源

数据来源: 泰国56-1表格文档
公司数量: 50家公司
时间范围: 2015-2019年（佛历2558-2562年）
数据规模: 12,258个句子组

标注体系

方面分类（16个类别）

品牌: 公司形象/商标品牌
产品/服务: 公司产品或服务
环境: 环境运营方面
社会与人员: 社会和人员相关
治理: 公司治理
经济: 宏观经济描述
政治: 政治方面
法律: 法律纠纷或法律相关决策
股息: 股息支付
投资: 投资活动
并购: 公司合并与收购
利润/损失: 公司业绩
评级: 公司信用评级
融资: 借贷活动
技术: 技术变革
其他: 其他类别

情感分类（3个类别）

负面: 负面情绪
中性: 中性情绪
正面: 正面情绪

数据标注

标注人员: 4名具有经济学背景的标注员
标注一致性:
- 方面标注Cohen kappa平均得分: 0.73
- 情感标注Cohen kappa平均得分: 0.77
标注特点: 多标签分类（一个文本可对应多个方面和情感）

数据集划分

训练集: 8,191个句子组（70%），2015-2018年
验证集: 1,756个句子组（15%），2019年
测试集: 1,755个句子组（15%），2018-2019年

模型训练

基础模型: airesearch/wangchanberta-base-att-spm-uncased
训练方式: 多类别分类

超参数设置

方面模型:

学习率: 3e-5
批次大小: 16
训练轮数: 5
权重衰减: 0.01

情感模型:

学习率: 5e-5
批次大小: 16
训练轮数: 5
权重衰减: 0.01

模型性能

方面分类性能

准确率: 0.79
微平均F1分数: 0.79
宏平均F1分数: 0.66
加权平均F1分数: 0.78

情感分类性能

准确率: 0.78
微平均F1分数: 0.60
宏平均F1分数: 0.56
加权平均F1分数: 0.58

许可证

许可证类型: Creative Commons Attribution 4.0 International Public License (CC-by)

支持机构

资助机构: 资本市场发展基金（Capital Market Development Fund: CMDF）

搜集汇总

数据集介绍

构建方式

该数据集的构建基于泰国上市公司年度财务报告（Form 56-1），通过制定精细的方面级情感标注指南，覆盖品牌、治理、利润/损失等16个关键财务主题。四名具备经济学背景的标注员经过系统训练，对报告段落进行多标签情感（负面、中性、正面）与方面联合标注，最终在11,702个段落上达成标注者间一致性系数（Cohen's kappa）0.73（方面）和0.77（情感），确保了数据在金融模糊语言环境下的标注可靠性。

特点

数据集聚焦于金融文本中特有的模糊情感表达，通过解构企业为规避负面印象而采用的策略性乐观叙述，揭示了表面中性或积极语言下隐藏的真实情感倾向。其标注体系平衡覆盖了16个财务方面与三类情感标签，其中社会与人员、治理等高频方面与利润/损失等低频方面均得到充分表征，情感分布以中性为主但负面与正面标签占比均衡，有效反映了企业年报中情感掩饰的复杂性与语境依赖性。

使用方法

该数据集支持基于预训练语言模型（如WangchanBERTa）的方面与情感多分类任务，通过微调模型捕捉段落级上下文依赖关系以破解模糊情感。研究人员可按7:1.5:1.5比例划分训练、验证与测试集，结合泰语分词与文本清洗流程，构建分类器预测财务文本中特定方面的真实情感倾向，进而应用于事件研究分析情感披露对股价异常收益的影响，推动金融自然语言处理在新兴市场的应用探索。

背景与挑战

背景概述

金融情感分析领域长期面临文本信息挖掘不足的挑战，尤其在非英语市场更为显著。2025年由朱拉隆功大学语言学系与萨辛商学院联合发布的《Financial Obfuscated Sentiment Dataset》，首次针对泰语年度财务报告构建了细粒度情感标注数据集。该研究聚焦于企业通过策略性语言模糊真实情感的普遍现象，通过标注16个关键财务维度与三种情感极性，为解码泰语金融文本的深层语义提供了重要基础。该数据集填补了东南亚金融市场文本分析的空白，其事件研究框架更揭示了特定文本维度与异常收益的关联机制，推动了金融自然语言处理技术的边界拓展。

当前挑战

在领域问题层面，该数据集需解决金融文本特有的情感模糊化挑战：企业常使用‘战略重组’等中性表述掩盖负面信息，传统情感分析方法难以穿透这种语义伪装。构建过程中面临双重困难：一是需要设计能识别16个财务维度间交互影响的标注体系，二是需确保经济学背景的标注者能持续保持0.73以上的标注一致性。此外，泰语复杂的语法结构与金融术语的多义性进一步增加了标注难度，要求模型必须同时具备语境理解与领域知识推理能力。

常用场景

经典使用场景

在金融文本分析领域，该数据集被广泛应用于基于方面的情感分析研究，特别是在处理泰语年度财务报告中的模糊情感表达时展现出独特价值。通过精细标注的16个经济信号方面和三种情感极性，研究者能够深入挖掘企业报告中刻意隐藏的真实情感倾向，为理解金融市场行为提供了新的视角。

衍生相关工作

基于该数据集衍生的研究已形成多个重要方向：一是开发了专门针对泰语金融文本的WangchanBERTa变体模型，二是在事件研究框架下建立了文本情感与异常收益的关联模型，三是推动了跨语言金融情感分析范式的演进，为新兴市场国家的金融科技发展提供了重要参考。

数据集最近研究