anhaltai/german-multifin
收藏Hugging Face2024-04-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/anhaltai/german-multifin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含真实世界的金融文章标题,标注了高层次和低层次的主题。数据集用于多类和多标签分类任务,分别有6个高层次主题和23个低层次主题。数据集通过OpenAI API gpt-3.5-turbo从源语言翻译成德语,并包含训练、验证和测试子集。
该数据集包含真实世界的金融文章标题,标注了高层次和低层次的主题。数据集用于多类和多标签分类任务,分别有6个高层次主题和23个低层次主题。数据集通过OpenAI API gpt-3.5-turbo从源语言翻译成德语,并包含训练、验证和测试子集。
提供机构:
anhaltai
原始信息汇总
数据集概述
数据集描述
该数据集包含真实的金融文章标题,这些标题被标注了高级别和低级别的话题。数据集被标注了6个高级别话题和23个低级别话题,分别用于多类别和多标签分类。在多标签分类任务中,每个示例最多有3个标注,总计14,230个标注,平均每个示例有1.4个标注。
语言
- 语言(NLP): 德语
许可证
- 许可证: cc-by-4.0
数据集来源
数据集基于MultiFin数据集。原始的MultiFin数据集包含10,048个真实世界的金融文章标题,涵盖15种语言。
使用
直接使用
数据集可用于多类别和多标签文本分类,使用德语或特定领域的多语言金融语言模型。
数据集结构
数据集通过load_dataset()使用时,具有两个特征:high_level_labels和low_level_labels。数据集包含训练集、验证集和测试集。在多标签分类任务中,每个示例最多有3个标注,总计14,230个标注,平均每个示例有1.4个标注。
德国MultiFin数据集的每个分割与原始MultiFin数据集具有相同数量的实例,因为所有实例都已翻译成德语。
数据集创建
数据收集和处理
使用OpenAI API gpt-3.5-turbo将数据集示例从源语言翻译成德语。每个示例都伴随有一个特定的提示,该提示包括数据集的源语言,从而更有效地引导模型,无需进行语言检测。



