FrancophonIA/CoFiF
收藏数据集卡片 for CoFiF
数据集描述
数据集概述
CoFiF 是首个包含法语公司报告的语料库。它包含超过 188 百万 个词令,涵盖 2655 份报告,涉及四种文档类型:
- 参考文档(documents de référence):每年发布,通常在日历年结束后的几个月内,包含公司的财务状况和前景信息。
- 年度报告(résultats annuels):总结公司上一年的业务和活动。
- 半年度报告(résultats semestriels):内容与年度报告类似,但每六个月发布一次。
- 季度报告(résultats trimestriels):内容与年度报告类似,但每三个月发布一次。
这些文档来自法国主要股票指数 CAC40 和 CAC Next 20 中列出的60家最大法国公司。语料库跨越20年,从1995年到2018年。
支持的任务和排行榜
语言建模:可用于在金融类型数据上训练法语模型(如 CamemBERT、FlauBERT、BARTHez 等)。
语言
法语
数据集结构
原始文本
数据集创建
策划理由
没有可用的与金融相关的法语数据集。
源数据
- 参考文档(documents de référence)
- 年度报告(résultats annuels)
- 半年度报告(résultats semestriels)
- 季度报告(résultats trimestriels)
这些文档来自法国主要股票指数 CAC40 和 CAC Next 20 中列出的60家最大法国公司。语料库跨越20年,从1995年到2018年。
初始数据收集和规范化
作者进行了清理,但未在其出版物或 GitHub 目录中详细说明。
源语言生产者
公共行政报告,由人类编写。
标注
无标注。
附加信息
数据集策展人
该出版物得到了爱尔兰科学基金会(SFI)的财政支持,资助号为 SFI/12/RC/2289,由欧洲区域发展基金共同资助。
许可信息
该语料库可用于非商业用途,遵循 Attribution-NonCommercial-ShareAlike 4.0 International 许可。
引用信息
如果您在研究中使用 CoFiF,请引用以下论文:
@inproceedings{daudert-ahmadi-2019-cofif, title = "{C}o{F}i{F}: A Corpus of Financial Reports in {F}rench Language", author = "Daudert, Tobias and Ahmadi, Sina", booktitle = "Proceedings of the First Workshop on Financial Technology and Natural Language Processing", month = "12 " # aug, year = "2019", address = "Macao, China", url = "https://www.aclweb.org/anthology/W19-5504", pages = "21--26", }




