anhaltai/german-multifin

Name: anhaltai/german-multifin
Creator: anhaltai
Published: 2024-04-27 12:22:32
License: 暂无描述

Hugging Face2024-04-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/anhaltai/german-multifin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含真实世界的金融文章标题，标注了高层次和低层次的主题。数据集用于多类和多标签分类任务，分别有6个高层次主题和23个低层次主题。数据集通过OpenAI API gpt-3.5-turbo从源语言翻译成德语，并包含训练、验证和测试子集。

提供机构：

anhaltai

原始信息汇总

数据集概述

该数据集包含真实的金融文章标题，这些标题被标注了高级别和低级别的话题。数据集被标注了6个高级别话题和23个低级别话题，分别用于多类别和多标签分类。在多标签分类任务中，每个示例最多有3个标注，总计14,230个标注，平均每个示例有1.4个标注。

数据集基于MultiFin数据集。原始的MultiFin数据集包含10,048个真实世界的金融文章标题，涵盖15种语言。

数据集可用于多类别和多标签文本分类，使用德语或特定领域的多语言金融语言模型。

数据集通过load_dataset()使用时，具有两个特征：high_level_labels和low_level_labels。数据集包含训练集、验证集和测试集。在多标签分类任务中，每个示例最多有3个标注，总计14,230个标注，平均每个示例有1.4个标注。

德国MultiFin数据集的每个分割与原始MultiFin数据集具有相同数量的实例，因为所有实例都已翻译成德语。

使用OpenAI API gpt-3.5-turbo将数据集示例从源语言翻译成德语。每个示例都伴随有一个特定的提示，该提示包括数据集的源语言，从而更有效地引导模型，无需进行语言检测。

5,000+

优质数据集

54 个

任务类型

进入经典数据集