five

anhaltai/fincorpus-de-10k

收藏
Hugging Face2025-09-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/anhaltai/fincorpus-de-10k
下载链接
链接失效反馈
官方服务:
资源简介:
FinCorpus-DE10k是一个包含12,235个PDF文件的金融文档语料库,主要涉及证券说明书等金融文档。这些文档主要是德语的(71%),其余为双语(德语和英语)。数据集旨在促进金融领域的文本分析、语言建模和文档理解任务。数据集包含多个集合,如年度报告、月度报告、基础说明书、最终条款和法律文档等。数据集的使用许可主要为CC BY-NC 4.0,部分文档为CC BY-NC-ND 4.0。数据集的结构包括文件名和文本两个特征,每个实例对应一个.txt文档。

FinCorpus-DE10k是一个包含12,235个PDF文件的金融文档语料库,主要涉及证券说明书等金融文档。这些文档主要是德语的(71%),其余为双语(德语和英语)。数据集旨在促进金融领域的文本分析、语言建模和文档理解任务。数据集包含多个集合,如年度报告、月度报告、基础说明书、最终条款和法律文档等。数据集的使用许可主要为CC BY-NC 4.0,部分文档为CC BY-NC-ND 4.0。数据集的结构包括文件名和文本两个特征,每个实例对应一个.txt文档。
提供机构:
anhaltai
原始信息汇总

数据集概述

名称: FinCorpus-DE10k

描述: FinCorpus-DE10k 是一个包含12,235个PDF文件的语料库,主要包含金融文档,如证券招股说明书,以及大约10,500个这些文档的纯文本文件。文档主要使用德语(71%),其余为德英双语。该数据集旨在促进金融领域的文本分析、语言建模和文档理解等任务。

语言: 德语(DE),双语(德语和英语)

许可证: 大部分内容遵循CC BY-NC 4.0,部分如月度和年度报告遵循CC BY-NC-ND 4.0

数据集组成

数据集配置:

  • Annual_reports: 包含Bundesbank和其他机构的年度(及部分季度)报告。
  • BBK_monthly: 包含德国Bundesbank的838个月度报告,从1949年到2022年。
  • Base_prospectuses: 包含发行人信息、证券描述和招股说明书摘要。
  • Final_terms: 详细说明金融证券发行的条款和条件,主要由德国Bundesbank收集。
  • Law: 包含金融及相关领域的德国法律,包括一些英文翻译。

数据集大小: 总下载大小为271752073字节,总数据集大小为946487016字节。

数据集用途

直接用途: 该数据集适用于开发和测试专门针对金融领域的NLP模型,包括信息提取、命名实体识别和专业语言模型等。

数据集结构

数据集特征:

  • filename: 数据类型为字符串。
  • text: 数据类型为字符串。

数据集分割:

  • train: 包含10402个示例,总字节数为946487016。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作