金融数据数据集|文本数据集数据集2
收藏库帕思2025-12-19 更新2025-12-20 收录
下载链接:
https://www.kupasai.com/corpus/detail?id=406&type=1
下载链接
链接失效反馈官方服务:
资源简介:
<p><br></p><p>BeanCounter是由芝加哥大学创建的一个公开的大型商业文本数据集,包含超过1590亿个tokens,主要来源于企业的公开披露文件。该数据集通过从EDGAR系统中提取文本并进行清洗和去重处理,旨在提供一个低毒性、高质量的领域特定数据集。</p><p><br></p><ul><li>数据来源:从美国证券交易委员会(SEC)的 EDGAR 系统中提取,涵盖企业向投资者和监管机构披露的各类公告,包括年报、信用协议等多种商业文件类型,数据来源权威且具有高度的商业领域专业性。</li><li>数据规模:包含超过 1590 亿个词汇,在公开可用的同类数据集中规模领先,足以满足训练数十亿参数大语言模型(LLMs)的需求,为模型学习商业领域复杂语义、知识和模式提供丰富信息。</li><li>数据特点:</li><li class="ql-indent-1">低毒性:基于数据来源特性,相较于基于网页抓取(如 Common Crawl)的数据集,BeanCounter 数据集中人口统计身份相关词汇出现时的毒性语境显著更少,更适合模型学习客观、无偏见的商业知识。</li><li class="ql-indent-1">领域专业性强:内容由企业针对投资者、监管者等利益相关方生成,涵盖商业运营、财务状况、战略规划、风险管理等多方面专业信息,不通过常规网页爬虫轻易获取,具有独特性与专业性。</li><li class="ql-indent-1">多维度信息:不仅包含文本主体内容,还附带与文本相关的时间戳和元数据,时间戳对于训练时效性强的模型至关重要,元数据可辅助理解文本背景与上下文关系。</li><li class="ql-indent-1">高质量:数据经过清洗与整理,质量较高,能有效提升模型训练效果,减少噪声数据对模型性能的干扰。</li><li>应用场景:</li><li class="ql-indent-1">商业领域大语言模型训练:作为核心训练数据,助力开发针对商业分析、金融预测、企业决策支持等场景的专业大语言模型,提升模型在商业文本理解、生成和问答任务中的表现。</li><li class="ql-indent-1">模型毒性与偏见评估:由于其低毒性特点,可作为基准数据集,用于评估其他模型在生成内容时的毒性和偏见水平,通过对比在 BeanCounter 上训练的模型与原模型,衡量减少毒性生成的效果。</li><li class="ql-indent-1">金融领域任务优化:针对金融领域特定任务,如财报分析、投资策略制定、风险评估等,利用 BeanCounter 训练模型,能够提高模型对金融术语、财务数据解读和金融市场动态理解的准确性。</li><li class="ql-indent-1">商业信息检索与分析:辅助企业或金融机构进行商业信息检索、行业报告分析、竞争对手研究等实际业务场景,通过训练相关模型实现更精准的信息提取与分析。</li></ul>
提供机构:
库帕思
创建时间:
2025-09-23



