FinTruthQA
收藏arXiv2024-06-18 更新2024-06-20 收录
下载链接:
https://github.com/bethxx99/FinTruthQA
下载链接
链接失效反馈官方服务:
资源简介:
FinTruthQA是由浙江大学等机构创建的金融信息披露质量评估基准数据集,包含6000条来自上海和深圳证券交易所投资者互动平台的真实金融问答数据。该数据集通过人工标注,依据问题识别、问题相关性、答案可读性和答案相关性四个维度进行评估。创建过程中,研究者解决了自然语言解释、上下文敏感性和主观性评估等技术挑战。FinTruthQA旨在通过自动化评估提升金融报告的透明度和质量,适用于审计、监管和金融分析等领域,以增强投资者信心和市场效率。
FinTruthQA is a benchmark dataset for financial information disclosure quality assessment, developed by institutions such as Zhejiang University. It contains 6,000 real financial question-and-answer (Q&A) pairs sourced from the investor interaction platforms of the Shanghai Stock Exchange and Shenzhen Stock Exchange. Manually annotated, this dataset is evaluated across four dimensions: question identification, question relevance, answer readability, and answer relevance. During its development, researchers addressed technical challenges including natural language interpretation, context sensitivity, and subjective assessment. FinTruthQA aims to enhance the transparency and quality of financial reports through automated assessment, and is applicable to fields such as auditing, regulation, and financial analysis, with the goal of boosting investor confidence and market efficiency.
提供机构:
浙江大学
创建时间:
2024-06-18
搜集汇总
数据集介绍

构建方式
FinTruthQA数据集的构建基于上海证券交易所(SSE)和深圳证券交易所(SZSE)的投资者互动平台,通过网页抓取技术获取了超过90万条问答数据。从中随机选取了6000条样本进行人工标注,每条问答数据均基于四个会计概念维度进行标注:问题识别、问题相关性、答案可读性和答案相关性。标注过程由具有财务和会计背景的专家完成,确保了数据的高质量和一致性。
特点
FinTruthQA数据集的特点在于其专注于金融问答数据的质量评估,涵盖了6000条真实世界的金融问答条目。每条数据均经过细致的标注,涵盖了问题识别、问题相关性、答案可读性和答案相关性四个维度。该数据集不仅为自然语言处理模型提供了丰富的训练和测试数据,还为金融信息披露的自动评估提供了基准。数据集中的问答数据来自中国两大证券交易所的互动平台,具有高度的现实性和代表性。
使用方法
FinTruthQA数据集可用于评估自然语言处理模型在金融信息披露质量评估任务中的表现。研究人员可以使用该数据集对统计机器学习模型、预训练语言模型及其微调版本以及大型语言模型(如GPT-4)进行基准测试。具体任务包括问题识别、问题相关性判断、答案可读性评估和答案相关性评估。通过该数据集,研究人员可以深入探讨金融信息披露的自动化评估方法,提升金融市场的透明度和信息披露质量。
背景与挑战
背景概述
FinTruthQA数据集由浙江大学、香港科技大学(广州)、西南财经大学、新加坡国立大学和哈佛大学的研究团队于2024年创建,旨在评估金融信息披露质量。该数据集包含6000条来自上海证券交易所和深圳证券交易所投资者互动平台的真实问答数据,每条数据均基于会计学的四个维度进行人工标注:问题识别、问题相关性、答案可读性和答案相关性。FinTruthQA的推出为金融领域的自然语言处理技术提供了基准,显著提升了金融报告的透明度和质量,并为审计师、监管机构和金融分析师提供了实时监控和数据驱动决策的工具。
当前挑战
FinTruthQA数据集面临的挑战主要体现在两个方面。首先,金融信息披露质量的自动评估任务具有高度复杂性,尤其是在答案可读性和答案相关性任务上,现有的自然语言处理模型表现尚不理想。其次,数据集的构建过程中,研究人员面临了大规模数据处理、自然语言理解的上下文敏感性以及标注过程中主观性带来的挑战。尽管预训练语言模型在问题识别和问题相关性任务上表现出色,但在处理金融领域特有的术语和语境时,仍需进一步优化。此外,数据集中问题相关性的标签分布极不平衡,进一步增加了模型训练的难度。
常用场景
经典使用场景
FinTruthQA数据集主要用于评估金融信息披露的质量,特别是在中国证券交易所的投资者互动平台上发布的问答数据。该数据集通过手动标注的6000个真实金融问答条目,涵盖了问题识别、问题相关性、答案可读性和答案相关性四个维度,为自然语言处理技术在金融领域的应用提供了基准测试。
实际应用
FinTruthQA数据集在实际应用中具有广泛的价值。审计师、监管机构和金融分析师可以利用该数据集进行实时监控和数据驱动的决策制定。此外,研究人员可以通过该数据集深入研究公司信息披露实践,分析投资者与公司之间的互动模式,从而为金融市场监管提供更深入的见解。
衍生相关工作
FinTruthQA的发布推动了金融领域自然语言处理技术的发展。基于该数据集,研究人员开发了多种预训练语言模型(如FinBERT、Mengzi-fin等),并在问答质量评估任务中取得了显著进展。此外,该数据集还激发了关于金融文本分析、问答系统优化等领域的研究,进一步推动了金融信息自动处理技术的创新。
以上内容由遇见数据集搜集并总结生成



