five

FrancophonIA/CoFiF

收藏
Hugging Face2025-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/CoFiF
下载链接
链接失效反馈
官方服务:
资源简介:
CoFiF是第一个包含法语公司报告的语料库。它包含了2655份报告,总计超过1.88亿个词,涵盖了四种类型的文件:参考文件、年度报告、半年度报告和季度报告。这些文件来自法国主要股票指数CAC40和CAC Next 20中的60家最大公司,时间跨度从1995年到2018年。数据集的主要用途是语言建模,可以用于训练法语模型。

CoFiF是第一个包含法语公司报告的语料库。它包含了2655份报告,总计超过1.88亿个词,涵盖了四种类型的文件:参考文件、年度报告、半年度报告和季度报告。这些文件来自法国主要股票指数CAC40和CAC Next 20中的60家最大公司,时间跨度从1995年到2018年。数据集的主要用途是语言建模,可以用于训练法语模型。
提供机构:
FrancophonIA
原始信息汇总

数据集卡片 for CoFiF

数据集描述

数据集概述

CoFiF 是首个包含法语公司报告的语料库。它包含超过 188 百万 个词令,涵盖 2655 份报告,涉及四种文档类型:

  • 参考文档(documents de référence):每年发布,通常在日历年结束后的几个月内,包含公司的财务状况和前景信息。
  • 年度报告(résultats annuels):总结公司上一年的业务和活动。
  • 半年度报告(résultats semestriels):内容与年度报告类似,但每六个月发布一次。
  • 季度报告(résultats trimestriels):内容与年度报告类似,但每三个月发布一次。

这些文档来自法国主要股票指数 CAC40CAC Next 20 中列出的60家最大法国公司。语料库跨越20年,从1995年到2018年。

支持的任务和排行榜

语言建模:可用于在金融类型数据上训练法语模型(如 CamemBERT、FlauBERT、BARTHez 等)。

语言

法语

数据集结构

原始文本

数据集创建

策划理由

没有可用的与金融相关的法语数据集。

源数据

  • 参考文档(documents de référence)
  • 年度报告(résultats annuels)
  • 半年度报告(résultats semestriels)
  • 季度报告(résultats trimestriels)

这些文档来自法国主要股票指数 CAC40 和 CAC Next 20 中列出的60家最大法国公司。语料库跨越20年,从1995年到2018年。

初始数据收集和规范化

作者进行了清理,但未在其出版物或 GitHub 目录中详细说明。

源语言生产者

公共行政报告,由人类编写。

标注

无标注。

附加信息

数据集策展人

该出版物得到了爱尔兰科学基金会(SFI)的财政支持,资助号为 SFI/12/RC/2289,由欧洲区域发展基金共同资助。

许可信息

该语料库可用于非商业用途,遵循 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

如果您在研究中使用 CoFiF,请引用以下论文:

@inproceedings{daudert-ahmadi-2019-cofif, title = "{C}o{F}i{F}: A Corpus of Financial Reports in {F}rench Language", author = "Daudert, Tobias and Ahmadi, Sina", booktitle = "Proceedings of the First Workshop on Financial Technology and Natural Language Processing", month = "12 " # aug, year = "2019", address = "Macao, China", url = "https://www.aclweb.org/anthology/W19-5504", pages = "21--26", }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CoFiF是一个法语公司报告语料库,包含2655份报告,覆盖1995年至2018年,适用于法语语言模型训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作