five

openvega-simon/investopedia|金融数据集|数据处理数据集

收藏
hugging_face2024-06-12 更新2024-06-15 收录
金融
数据处理
下载链接:
https://hf-mirror.com/datasets/openvega-simon/investopedia
下载链接
链接失效反馈
资源简介:
该数据集包含从Investopedia网站爬取的文章内容,涵盖广泛的金融和投资主题。数据集的特征包括URL、标题、HTML和Markdown格式的内容以及清理后的内容。该数据集适用于多种NLP任务,如金融分析、情感分析、文本挖掘和构建金融教育工具。

该数据集包含从Investopedia网站爬取的文章内容,涵盖广泛的金融和投资主题。数据集的特征包括URL、标题、HTML和Markdown格式的内容以及清理后的内容。该数据集适用于多种NLP任务,如金融分析、情感分析、文本挖掘和构建金融教育工具。
提供机构:
openvega-simon
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • url: 字符串类型
    • title: 字符串类型
    • html_content: 字符串类型
    • md_content: 字符串类型
    • clean_content: 字符串类型
    • reference_links: 字符串序列
  • 分割:
    • train: 字节数为189633845,样本数为4723
  • 下载大小: 76396102字节
  • 数据集大小: 189633845字节
  • 配置:
    • default: 数据文件路径为data/train-*
  • 语言: 英语
  • 标签: 金融
  • 大小类别: 1K<n<10K
  • 任务类别:
    • 问答
    • 文本分类
    • 文本生成
    • 句子相似度
    • 摘要

内容

该数据集包含从Investopedia网站爬取的文章内容,涵盖广泛的金融和投资主题。

来源

所有内容均通过网络爬虫从Investopedia获取。

用途

该数据集可用于以下目的:

  • 金融分析
  • 情感分析
  • 文本挖掘和自然语言处理(NLP)
  • 构建金融教育工具

注意事项

  • 使用此数据集时,请确保对Investopedia进行适当引用。
  • 验证信息的准确性,因为金融内容可能会过时。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国1km分辨率逐月NDVI数据集(2001-2023年)

中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。

国家地球系统科学数据中心 收录