CoFiF-Corpus for Finance

github2024-02-08 更新2024-05-31 收录

下载链接：

https://github.com/CoFiF/Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CoFiF是首个包含法语公司报告的语料库，包含超过1.88亿个令牌，涵盖2655份报告，涉及四种文档类型：年度报告、半年度报告、季度报告和参考文档。这些文档来自法国60家最大的上市公司，时间跨度从1995年到2018年。

CoFiF is the first corpus containing French corporate reports, encompassing over 188 million tokens and covering 2,655 reports across four document types: annual reports, semi-annual reports, quarterly reports, and reference documents. These documents originate from the 60 largest listed companies in France, spanning the period from 1995 to 2018.

创建时间：

2019-06-15

原始信息汇总

数据集概述

数据集名称

CoFiF-Corpus for Finance

数据集内容

语言：法语
类型：公司报告
文档数量：2655份
总字数：超过188百万字
文档类型：
- 参考文档（每年发布，包含公司财务状况和前景信息）
- 年度报告（总结公司前一年的业务和活动）
- 半年度报告（内容类似年度报告，每半年发布一次）
- 季度报告（内容类似年度报告，每季度发布一次）

数据集来源

公司：法国最大的60家公司
股票指数：CAC40和CAC Next 20
时间范围：1995年至2018年

数据集结构

原始文件：PDF格式，来自企业
文本文件：基于PDF结构，未经预处理的原始文本
清理后的文本文件：合并为一个文件，用于训练语言模型

语言模型

模型参数：
- hiddensize=2048
- #layers=1
- sequencelength=250
- minibatchsize=100
- epochs=3

数据集访问

原始PDF文件：链接
文本文件：链接
清理后的文本文件：链接

许可证

使用范围：非商业用途
许可证：Attribution-NonCommercial-ShareAlike 4.0 International

联系方式

联系人：Sina Ahmadi, Tobias Daudert
邮箱：sina.ahmadi@insight-centre.org, tobias.daudert@insight-centre.org

搜集汇总

数据集介绍

构建方式

CoFiF数据集是首个涵盖法语公司报告的语料库，其构建过程基于法国主要股票指数CAC40和CAC Next 20中60家最大公司的公开报告。这些报告包括年度参考文件、年度报告、半年度报告和季度报告，时间跨度从1995年至2018年。数据集通过收集这些公司的PDF文件，并将其转换为原始文本文件，进一步提供了经过清理和合并的单一文本文件，以便于后续的语言模型训练。

特点

CoFiF数据集包含超过1.88亿个词汇，涵盖2655份报告，涵盖了四种不同类型的公司报告。这些报告不仅提供了丰富的财务信息，还反映了法国主要公司在过去20年间的经营状况和发展趋势。数据集的结构清晰，文件目录中包含元数据，如发布日期和报告类型，便于用户快速定位所需信息。此外，数据集还提供了经过清理的文本文件，可直接用于语言模型的训练。

使用方法

CoFiF数据集的使用方法多样，用户可以直接下载原始PDF文件或转换后的文本文件进行研究。对于需要训练语言模型的用户，数据集提供了经过清理和合并的单一文本文件，可直接用于模型训练。此外，数据集还提供了两个预训练的语言模型，用户可以根据需要调整超参数进行进一步训练。使用该数据集时，建议参考相关论文，并遵循非商业用途的许可协议。

背景与挑战

背景概述

CoFiF-Corpus for Finance 是首个专注于法语公司财务报告的语料库，由 Tobias Daudert 和 Sina Ahmadi 于 2019 年创建。该数据集涵盖了法国主要股票指数 CAC40 和 CAC Next 20 中 60 家最大公司发布的 2655 份报告，时间跨度从 1995 年至 2018 年，包含超过 1.88 亿个词汇。这些报告分为四类：年度参考文件、年度报告、半年度报告和季度报告，为研究法语财务文本的自然语言处理任务提供了丰富的资源。CoFiF 的发布填补了法语财务文本语料库的空白，对金融科技和自然语言处理领域的研究具有重要意义。

当前挑战

CoFiF 数据集在构建和应用过程中面临多重挑战。首先，财务文本的复杂性和专业性要求高精度的文本解析和语义理解，这对自然语言处理模型提出了较高要求。其次，数据集的构建涉及大量 PDF 文件的转换和清理，确保文本格式的一致性和准确性是一项耗时且复杂的任务。此外，财务报告的多语言性和跨年度特性增加了数据处理的难度，尤其是在保持时间序列一致性和跨文档关联性方面。最后，如何在非商业许可下平衡数据开放性与版权保护，也是数据集发布过程中需要解决的关键问题。

常用场景

经典使用场景

CoFiF-Corpus for Finance作为首个涵盖法语公司报告的语料库，广泛应用于金融文本分析领域。其经典使用场景包括对法国主要上市公司发布的年度、半年度和季度报告进行文本挖掘，以提取关键财务信息、分析公司业绩趋势以及预测市场动态。研究人员通过该数据集能够深入理解法语金融文本的结构与内容，为自然语言处理技术在金融领域的应用提供坚实基础。

实际应用

在实际应用中，CoFiF-Corpus for Finance被广泛用于构建金融领域的自然语言处理工具，如自动报告生成、财务信息抽取和风险预测系统。金融机构和研究人员利用该数据集开发智能分析工具，以自动化处理大量财务报告，提高信息处理效率，并为投资决策提供数据支持。此外，该数据集还被用于训练金融领域的语言模型，提升文本分类和情感分析的准确性。

衍生相关工作

CoFiF-Corpus for Finance的发布催生了一系列相关研究工作，特别是在金融文本处理和法语自然语言处理领域。基于该数据集，研究者开发了多种语言模型和文本分析工具，如金融文本分类器、信息抽取系统和自动摘要生成器。此外，该数据集还被用于跨语言金融文本分析的研究，推动了多语言金融文本处理技术的发展。其影响力不仅限于学术界，还延伸至金融科技行业，为智能金融工具的研发提供了重要数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集