金融数据数据集|文本数据集数据集2

库帕思2025-12-19 更新2025-12-20 收录

下载链接：

https://www.kupasai.com/corpus/detail?id=406&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

BeanCounter是由芝加哥大学创建的一个公开的大型商业文本数据集，包含超过1590亿个tokens，主要来源于企业的公开披露文件。该数据集通过从EDGAR系统中提取文本并进行清洗和去重处理，旨在提供一个低毒性、高质量的领域特定数据集。 <ul><li>数据来源：从美国证券交易委员会（SEC）的 EDGAR 系统中提取，涵盖企业向投资者和监管机构披露的各类公告，包括年报、信用协议等多种商业文件类型，数据来源权威且具有高度的商业领域专业性。</li><li>数据规模：包含超过 1590 亿个词汇，在公开可用的同类数据集中规模领先，足以满足训练数十亿参数大语言模型（LLMs）的需求，为模型学习商业领域复杂语义、知识和模式提供丰富信息。</li><li>数据特点：</li><li class="ql-indent-1">低毒性：基于数据来源特性，相较于基于网页抓取（如 Common Crawl）的数据集，BeanCounter 数据集中人口统计身份相关词汇出现时的毒性语境显著更少，更适合模型学习客观、无偏见的商业知识。</li><li class="ql-indent-1">领域专业性强：内容由企业针对投资者、监管者等利益相关方生成，涵盖商业运营、财务状况、战略规划、风险管理等多方面专业信息，不通过常规网页爬虫轻易获取，具有独特性与专业性。</li><li class="ql-indent-1">多维度信息：不仅包含文本主体内容，还附带与文本相关的时间戳和元数据，时间戳对于训练时效性强的模型至关重要，元数据可辅助理解文本背景与上下文关系。</li><li class="ql-indent-1">高质量：数据经过清洗与整理，质量较高，能有效提升模型训练效果，减少噪声数据对模型性能的干扰。</li><li>应用场景：</li><li class="ql-indent-1">商业领域大语言模型训练：作为核心训练数据，助力开发针对商业分析、金融预测、企业决策支持等场景的专业大语言模型，提升模型在商业文本理解、生成和问答任务中的表现。</li><li class="ql-indent-1">模型毒性与偏见评估：由于其低毒性特点，可作为基准数据集，用于评估其他模型在生成内容时的毒性和偏见水平，通过对比在 BeanCounter 上训练的模型与原模型，衡量减少毒性生成的效果。</li><li class="ql-indent-1">金融领域任务优化：针对金融领域特定任务，如财报分析、投资策略制定、风险评估等，利用 BeanCounter 训练模型，能够提高模型对金融术语、财务数据解读和金融市场动态理解的准确性。</li><li class="ql-indent-1">商业信息检索与分析：辅助企业或金融机构进行商业信息检索、行业报告分析、竞争对手研究等实际业务场景，通过训练相关模型实现更精准的信息提取与分析。</li></ul>

提供机构：

库帕思

创建时间：

2025-09-23