anhaltai/fincorpus-de-10k
收藏Hugging Face2025-09-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/anhaltai/fincorpus-de-10k
下载链接
链接失效反馈官方服务:
资源简介:
FinCorpus-DE10k是一个包含12,235个PDF文件的金融文档语料库,主要涉及证券说明书等金融文档。这些文档主要是德语的(71%),其余为双语(德语和英语)。数据集旨在促进金融领域的文本分析、语言建模和文档理解任务。数据集包含多个集合,如年度报告、月度报告、基础说明书、最终条款和法律文档等。数据集的使用许可主要为CC BY-NC 4.0,部分文档为CC BY-NC-ND 4.0。数据集的结构包括文件名和文本两个特征,每个实例对应一个.txt文档。
FinCorpus-DE10k是一个包含12,235个PDF文件的金融文档语料库,主要涉及证券说明书等金融文档。这些文档主要是德语的(71%),其余为双语(德语和英语)。数据集旨在促进金融领域的文本分析、语言建模和文档理解任务。数据集包含多个集合,如年度报告、月度报告、基础说明书、最终条款和法律文档等。数据集的使用许可主要为CC BY-NC 4.0,部分文档为CC BY-NC-ND 4.0。数据集的结构包括文件名和文本两个特征,每个实例对应一个.txt文档。
提供机构:
anhaltai
原始信息汇总
数据集概述
名称: FinCorpus-DE10k
描述: FinCorpus-DE10k 是一个包含12,235个PDF文件的语料库,主要包含金融文档,如证券招股说明书,以及大约10,500个这些文档的纯文本文件。文档主要使用德语(71%),其余为德英双语。该数据集旨在促进金融领域的文本分析、语言建模和文档理解等任务。
语言: 德语(DE),双语(德语和英语)
许可证: 大部分内容遵循CC BY-NC 4.0,部分如月度和年度报告遵循CC BY-NC-ND 4.0。
数据集组成
数据集配置:
- Annual_reports: 包含Bundesbank和其他机构的年度(及部分季度)报告。
- BBK_monthly: 包含德国Bundesbank的838个月度报告,从1949年到2022年。
- Base_prospectuses: 包含发行人信息、证券描述和招股说明书摘要。
- Final_terms: 详细说明金融证券发行的条款和条件,主要由德国Bundesbank收集。
- Law: 包含金融及相关领域的德国法律,包括一些英文翻译。
数据集大小: 总下载大小为271752073字节,总数据集大小为946487016字节。
数据集用途
直接用途: 该数据集适用于开发和测试专门针对金融领域的NLP模型,包括信息提取、命名实体识别和专业语言模型等。
数据集结构
数据集特征:
- filename: 数据类型为字符串。
- text: 数据类型为字符串。
数据集分割:
- train: 包含10402个示例,总字节数为946487016。



