five

anhaltai/german-multifin

收藏
Hugging Face2024-04-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/anhaltai/german-multifin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含真实世界的金融文章标题,标注了高层次和低层次的主题。数据集用于多类和多标签分类任务,分别有6个高层次主题和23个低层次主题。数据集通过OpenAI API gpt-3.5-turbo从源语言翻译成德语,并包含训练、验证和测试子集。

该数据集包含真实世界的金融文章标题,标注了高层次和低层次的主题。数据集用于多类和多标签分类任务,分别有6个高层次主题和23个低层次主题。数据集通过OpenAI API gpt-3.5-turbo从源语言翻译成德语,并包含训练、验证和测试子集。
提供机构:
anhaltai
原始信息汇总

数据集概述

数据集描述

该数据集包含真实的金融文章标题,这些标题被标注了高级别和低级别的话题。数据集被标注了6个高级别话题和23个低级别话题,分别用于多类别和多标签分类。在多标签分类任务中,每个示例最多有3个标注,总计14,230个标注,平均每个示例有1.4个标注。

语言

  • 语言(NLP): 德语

许可证

  • 许可证: cc-by-4.0

数据集来源

数据集基于MultiFin数据集。原始的MultiFin数据集包含10,048个真实世界的金融文章标题,涵盖15种语言。

使用

直接使用

数据集可用于多类别和多标签文本分类,使用德语或特定领域的多语言金融语言模型。

数据集结构

数据集通过load_dataset()使用时,具有两个特征:high_level_labels和low_level_labels。数据集包含训练集、验证集和测试集。在多标签分类任务中,每个示例最多有3个标注,总计14,230个标注,平均每个示例有1.4个标注。

德国MultiFin数据集的每个分割与原始MultiFin数据集具有相同数量的实例,因为所有实例都已翻译成德语。

数据集创建

数据收集和处理

使用OpenAI API gpt-3.5-turbo将数据集示例从源语言翻译成德语。每个示例都伴随有一个特定的提示,该提示包括数据集的源语言,从而更有效地引导模型,无需进行语言检测。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作