金融领域语料库|金融信息数据集|语料库数据集

OpenDataLab2025-03-29 更新2025-02-15 收录

金融信息

语料库

下载链接：

https://opendatalab.org.cn/peopletech/Financialindustry

下载链接

链接失效反馈

资源简介：

金融行业语料数据集收录了金融行业要闻资讯、深度报道、理论分析、评论综述等内容，涵盖行业政策、银行、保险、股票、证券、期货、基金、理财、投资等领域语料数据。

提供机构：

peopletech

创建时间：

2025-01-20

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

OpenDataLab 收录

Set5

Set5数据集是一个包含5张图像的图像超分辨率测试数据集，包括'baby', 'bird', 'butterfly', 'head', 'woman'，通常用于评估图像超分辨率模型的性能。

huggingface 收录