pit-earnings-call-qa

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/jdecim/pit-earnings-call-qa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于PIT（Point-in-Time）系列语言模型监督微调的金融问答数据集，专门针对美国上市公司财报电话会议记录构建。数据集旨在微调Diamegs/PIT-4B-FT-*模型快照，同时严格遵守PIT时间顺序原则——训练中不使用基础模型知识截止日期之后的任何会议记录。数据集包含两个时间快照（202112和202212），每个快照按时间顺序划分为训练集、验证集、测试集和基准集。数据规模在10万到100万样本之间，具体到202212快照包含189,362个训练样本、16,778个验证样本、16,900个测试样本和1,000个基准样本。数据内容涵盖四种问答类型：基于LLM生成问题的正向合成问答、基于实际分析师问题的正向自然问答、给定管理层回答的反向问题生成，以及无法回答问题的识别训练。数据以两种格式提供：扁平记录格式（包含transcript_id、context、question、answer等字段）和聊天格式（适合训练脚本使用）。该数据集专门用于金融领域的问答任务，特别是财报电话会议内容的理解与分析。

This dataset is a financial question-answering dataset for supervised fine-tuning of the PIT (Point-in-Time) series of language models, specifically constructed from earnings call transcripts of U.S. publicly traded companies. It is designed to fine-tune the Diamegs/PIT-4B-FT-* model snapshots while strictly adhering to the PIT chronological principle—no meeting records after the base models knowledge cutoff date are used in training. The dataset includes two time snapshots (202112 and 202212), each chronologically divided into training, validation, test, and benchmark sets. The data scale ranges from 100,000 to 1,000,000 samples, with the 202212 snapshot specifically containing 189,362 training samples, 16,778 validation samples, 16,900 test samples, and 1,000 benchmark samples. The data content covers four types of question-answering: forward synthetic QA based on LLM-generated questions, forward natural QA based on actual analyst questions, reverse question generation given management responses, and training for identifying unanswerable questions. The data is provided in two formats: a flat record format (including fields such as transcript_id, context, question, answer) and a chat format (suitable for training scripts). This dataset is specifically designed for financial question-answering tasks, particularly for understanding and analyzing earnings call content.

创建时间：

2026-05-17

搜集汇总

数据集介绍

构建方式

该数据集基于美国上市公司财报电话会议记录构建，旨在为PIT（Point-in-Time）语言模型系列提供监督微调数据。为维护时间序列的完整性，数据集严格遵循时间顺序划分：训练集仅包含早于模型知识截止日期的记录，验证集对应截止年份，测试集则完全采用截止日期后的数据。数据构建设计了四种问答类型：前向合成问答通过匿名化的管理层陈述由大语言模型生成问题，并匹配原文证据片段；前向自然问答直接采用分析师真实提问，结合嵌入检索选中的管理层陈述段落；逆向自然问答则要求模型从管理层回答反推问题；不可回答类由模型生成但无法从记录中解答的问题，迫使模型学会拒绝回答。

特点

数据集的一大特色在于其严格的时间纪律约束，确保微调过程不会引入模型预训练之后的知识，从而评估模型真实的泛化能力。四种问答类型的精心配比（前向合成占74.8%，不可回答占9.5%，前向自然占8.9%，逆向自然占6.8%）不仅覆盖了财报分析的核心需求，还训练模型在无答案时主动避让，提升了金融场景下的可靠性。每个快照（如202112和202212）都包含完整的训练/验证/测试划分，并额外提供1,000条平衡样本的基准测试集，便于标准化评估。

使用方法

用户可通过HuggingFace Datasets库便捷加载特定快照，例如使用`load_dataset("jdecim/pit-earnings-call-qa", "202212", split="train")`加载202212快照的训练集。数据集提供两种数据格式：`sft_*.jsonl`为扁平记录，包含字段如`transcript_id`、`context`、`question`、`answer`等，适合数据探索与分析；`messages_*.jsonl`为对话格式，包含角色标注字段，直接服务于SFT训练流程。用户可根据需求选择适合的格式进行模型微调或评估，同时可参照已训练好的适配器`jdecim/SFT_202212-earnings-sft`进行复现或迁移学习。

背景与挑战

背景概述

金融领域文本分析长期面临非结构化数据与专业语义理解的双重困境，特别是上市公司财报电话会议记录这类蕴含丰富财务信号却难以被通用模型有效解析的语料。为应对这一挑战，由研究人员构建的pit-earnings-call-qa数据集于2022年前后问世，其核心研究问题在于如何通过监督微调使语言模型掌握时效性严格约束下的金融问答能力。该数据集源自美国上市公司财报电话会议实录，创新性地引入PIT（Point-in-Time）时间纪律原则，确保训练数据绝对限定于基座模型知识截止日期之前，从而彻底消除未来信息泄露风险。作为PIT-4B-FT系列模型的关键微调资源，该数据集通过四种结构化问答类型——包括合成正向问答、自然正向问答、反向问答及不可应答问题——系统性地提升模型在严格时间框架下的金融信息抽取与推理能力，对推动时间感知型金融语言模型的发展具有重要意义。

当前挑战

该数据集聚焦解决的核心领域挑战在于，传统金融问答系统往往无法区分历史知识与前瞻性信息，导致模型在推测性问题上产生事实性错误或时间错位判断。具体而言，模型需要精准识别哪些问题能够依据当次电话会议内容回答，哪些应明确拒绝回答，这对训练数据的时序边界划定提出了极高要求。构建过程中面临的主要技术挑战包括：其一，大型语言模型生成的合成问题天然带有后见之明偏差，必须通过公司名称匿名化与问答分离策略来规避信息泄露；其二，自然问答对中分析师提问与高管回答的匹配精度，依赖基于嵌入向量的段落检索与回声消除技术；其三，不同问答类型在训练集中的分布比例（如合成正向问答占比近75%）需精心平衡，以防止模型产生输出偏好。此外，严格的时序分割要求——训练集、验证集与测试集按年份严格划分——进一步增加了数据编排的复杂度。

常用场景

经典使用场景

在金融自然语言处理领域中，该数据集专门用于训练和评估基于财报电话会议记录（Earnings Call Transcripts）的问答系统。它通过构建四种不同类型的问答对——正向合成问题、正向自然问题、反向自然问题以及不可回答问题，为监督微调（SFT）提供了丰富且多样化的训练材料。数据集严格遵循时间点（Point-in-Time）原则进行时间切分，确保训练数据不包含任何超出基模型知识截止日期之后的未来信息，从而使得模型能够在真实的时序环境下进行学习和推理。这种设计尤其适合那些需要精确理解企业财务文本并回答相关问题的场景。

衍生相关工作

基于该数据集，研究者已经训练并发布了多个PIT-4B-FT模型快照（如202112和202212版本），这些模型在保持时间点纪律的前提下充分利用了财报电话会议中的结构化信息。相关工作还包括在该数据集上进一步开发的SFT适配器（如SFT_202212-earnings-sft），为在其他时间窗口下微调模型提供了可直接使用的基准。此外，该数据集的构建方法——特别是匿名化后生成合成问题、四种问答桶的设计以及时序切分策略——为后续金融数据集的建设提供了可复现的范本，激发了更多关于时序敏感型NLP数据集与模型的探索。

数据集最近研究