InvestmentResearchAI/earnings_10k
收藏Hugging Face2024-04-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/InvestmentResearchAI/earnings_10k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在训练LLM-ADE模型,使其具备金融领域的专业知识。数据集包含75,849个序列,约1680万个令牌,数据来源于S&P 500指数成分公司的10-K文件、收益电话会议记录和投资者活动记录。预处理步骤包括字符转换、错误修正、去重等,以确保数据质量。未来计划包括扩大公司数量、优化过滤技术和实施语义去重。
This dataset is designed to train the LLM-ADE model to equip it with professional financial expertise. It contains 75,849 sequences and approximately 16.8 million tokens, with data sourced from 10-K filings, earnings conference call transcripts, and investor event records of S&P 500 index constituent companies. Preprocessing steps include character conversion, error correction, deduplication, etc., to ensure data quality. Future plans include expanding the number of covered companies, optimizing filtering techniques, and implementing semantic deduplication.
提供机构:
InvestmentResearchAI
原始信息汇总
数据集概述
该数据集旨在训练LLM-ADE模型(https://arxiv.org/abs/2404.13028),专门设计用于赋予其金融领域专业知识。数据集包含75,849个序列,总计约1680万个标记,使用Llama分词器。我们有意对序列进行匿名处理,以反映真实世界数据,并训练模型从无标签数据中处理知识。
数据集聚焦于2024年1月S&P 500指数的500家成分公司,包括:
- 最新10-K文件中的管理层讨论和风险因素部分。
- 过去五年公司投资者关系部分提供的财报电话会议记录。
- 各种投资者活动记录,包括分析师日演讲、公司主办或行业会议以及业务更新。
由于财务报表的图形和表格格式与下一个标记预测训练方法不兼容,我们有意排除了这些内容。
原始数据主要为PDF格式,经过光学字符识别(OCR)后进行了以下预处理步骤:
- 将Unicode/HTML实体转换为ASCII字符。
- 纠正间距错误和标点符号错误。
- 移除包含过多图像或表格引用的序列。
- 排除包含过多OCR伪影的序列。
- 分离错误合并的单词。
- 使用MinHash(阈值为0.95)进行局部敏感哈希去重。
尽管我们已尽力确保数据集的完整性和清洁度,但仍可能存在一些不完美之处。这是有意为之,以便数据集能够反映真实世界的应用。我们的预处理偏向于排除,导致最初通过OCR捕获的标记中约有35%被移除,以保持高质量的语料库。
未来,我们致力于扩展数据集,包括:
- 扩大包含的公司数量并延长历史数据。
- 改进过滤技术以获得更清洁的数据并减少数据排除的需要。
- 实施语义去重以增强数据集的实用性。



