CoFiF-Corpus for Finance
收藏github2024-02-08 更新2024-05-31 收录
下载链接:
https://github.com/CoFiF/Corpus
下载链接
链接失效反馈官方服务:
资源简介:
CoFiF是首个包含法语公司报告的语料库,包含超过1.88亿个令牌,涵盖2655份报告,涉及四种文档类型:年度报告、半年度报告、季度报告和参考文档。这些文档来自法国60家最大的上市公司,时间跨度从1995年到2018年。
CoFiF is the first corpus containing French corporate reports, encompassing over 188 million tokens and covering 2,655 reports across four document types: annual reports, semi-annual reports, quarterly reports, and reference documents. These documents originate from the 60 largest listed companies in France, spanning the period from 1995 to 2018.
创建时间:
2019-06-15
原始信息汇总
数据集概述
数据集名称
- CoFiF-Corpus for Finance
数据集内容
- 语言:法语
- 类型:公司报告
- 文档数量:2655份
- 总字数:超过188百万字
- 文档类型:
- 参考文档(每年发布,包含公司财务状况和前景信息)
- 年度报告(总结公司前一年的业务和活动)
- 半年度报告(内容类似年度报告,每半年发布一次)
- 季度报告(内容类似年度报告,每季度发布一次)
数据集来源
- 公司:法国最大的60家公司
- 股票指数:CAC40和CAC Next 20
- 时间范围:1995年至2018年
数据集结构
- 原始文件:PDF格式,来自企业
- 文本文件:基于PDF结构,未经预处理的原始文本
- 清理后的文本文件:合并为一个文件,用于训练语言模型
语言模型
- 模型参数:
hiddensize=2048#layers=1sequencelength=250minibatchsize=100epochs=3
数据集访问
许可证
- 使用范围:非商业用途
- 许可证:Attribution-NonCommercial-ShareAlike 4.0 International
联系方式
- 联系人:Sina Ahmadi, Tobias Daudert
- 邮箱:sina.ahmadi@insight-centre.org, tobias.daudert@insight-centre.org
搜集汇总
数据集介绍

构建方式
CoFiF数据集是首个涵盖法语公司报告的语料库,其构建过程基于法国主要股票指数CAC40和CAC Next 20中60家最大公司的公开报告。这些报告包括年度参考文件、年度报告、半年度报告和季度报告,时间跨度从1995年至2018年。数据集通过收集这些公司的PDF文件,并将其转换为原始文本文件,进一步提供了经过清理和合并的单一文本文件,以便于后续的语言模型训练。
特点
CoFiF数据集包含超过1.88亿个词汇,涵盖2655份报告,涵盖了四种不同类型的公司报告。这些报告不仅提供了丰富的财务信息,还反映了法国主要公司在过去20年间的经营状况和发展趋势。数据集的结构清晰,文件目录中包含元数据,如发布日期和报告类型,便于用户快速定位所需信息。此外,数据集还提供了经过清理的文本文件,可直接用于语言模型的训练。
使用方法
CoFiF数据集的使用方法多样,用户可以直接下载原始PDF文件或转换后的文本文件进行研究。对于需要训练语言模型的用户,数据集提供了经过清理和合并的单一文本文件,可直接用于模型训练。此外,数据集还提供了两个预训练的语言模型,用户可以根据需要调整超参数进行进一步训练。使用该数据集时,建议参考相关论文,并遵循非商业用途的许可协议。
背景与挑战
背景概述
CoFiF-Corpus for Finance 是首个专注于法语公司财务报告的语料库,由 Tobias Daudert 和 Sina Ahmadi 于 2019 年创建。该数据集涵盖了法国主要股票指数 CAC40 和 CAC Next 20 中 60 家最大公司发布的 2655 份报告,时间跨度从 1995 年至 2018 年,包含超过 1.88 亿个词汇。这些报告分为四类:年度参考文件、年度报告、半年度报告和季度报告,为研究法语财务文本的自然语言处理任务提供了丰富的资源。CoFiF 的发布填补了法语财务文本语料库的空白,对金融科技和自然语言处理领域的研究具有重要意义。
当前挑战
CoFiF 数据集在构建和应用过程中面临多重挑战。首先,财务文本的复杂性和专业性要求高精度的文本解析和语义理解,这对自然语言处理模型提出了较高要求。其次,数据集的构建涉及大量 PDF 文件的转换和清理,确保文本格式的一致性和准确性是一项耗时且复杂的任务。此外,财务报告的多语言性和跨年度特性增加了数据处理的难度,尤其是在保持时间序列一致性和跨文档关联性方面。最后,如何在非商业许可下平衡数据开放性与版权保护,也是数据集发布过程中需要解决的关键问题。
常用场景
经典使用场景
CoFiF-Corpus for Finance作为首个涵盖法语公司报告的语料库,广泛应用于金融文本分析领域。其经典使用场景包括对法国主要上市公司发布的年度、半年度和季度报告进行文本挖掘,以提取关键财务信息、分析公司业绩趋势以及预测市场动态。研究人员通过该数据集能够深入理解法语金融文本的结构与内容,为自然语言处理技术在金融领域的应用提供坚实基础。
实际应用
在实际应用中,CoFiF-Corpus for Finance被广泛用于构建金融领域的自然语言处理工具,如自动报告生成、财务信息抽取和风险预测系统。金融机构和研究人员利用该数据集开发智能分析工具,以自动化处理大量财务报告,提高信息处理效率,并为投资决策提供数据支持。此外,该数据集还被用于训练金融领域的语言模型,提升文本分类和情感分析的准确性。
衍生相关工作
CoFiF-Corpus for Finance的发布催生了一系列相关研究工作,特别是在金融文本处理和法语自然语言处理领域。基于该数据集,研究者开发了多种语言模型和文本分析工具,如金融文本分类器、信息抽取系统和自动摘要生成器。此外,该数据集还被用于跨语言金融文本分析的研究,推动了多语言金融文本处理技术的发展。其影响力不仅限于学术界,还延伸至金融科技行业,为智能金融工具的研发提供了重要数据支持。
以上内容由遇见数据集搜集并总结生成



