five

TigerResearch/tigerbot-research-plugin|机器学习数据集|研报数据数据集

收藏
hugging_face2023-06-01 更新2024-03-04 收录
机器学习
研报数据
下载链接:
https://hf-mirror.com/datasets/TigerResearch/tigerbot-research-plugin
下载链接
链接失效反馈
资源简介:
Tigerbot模型在rethink时使用的外脑原始数据,这些数据是研报类的内容。具体包括2万篇完整的研报,按段落保存,发布时间区间为2022年9月30日至2023年5月19日。

Tigerbot模型在rethink时使用的外脑原始数据,这些数据是研报类的内容。具体包括2万篇完整的研报,按段落保存,发布时间区间为2022年9月30日至2023年5月19日。
提供机构:
TigerResearch
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 中文

数据内容

  • 类型: 研报类
  • 数量: 共20,000篇完整研报
  • 存储方式: 按段落保存

时间范围

  • 发布时间区间: 2022-09-30 至 2023-05-19

使用示例

python import datasets ds_sft = datasets.load_dataset(TigerResearch/tigerbot-research-plugin)

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录