five

airesearch/CMDF_VISTEC

收藏
Hugging Face2024-07-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/airesearch/CMDF_VISTEC
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种金融文本数据,涵盖年度报告、新闻文章和社交媒体帖子等。年度报告由公司每年发布,提供其财务表现和战略展望的见解。新闻文章来自知名金融新闻来源,社交媒体和在线论坛的文本则来自互联网用户。该数据集适用于研究人员、数据科学家和开发者训练语言模型和构建语料库。数据来源于公开渠道,如金融新闻网站、监管机构和社交媒体。数据集提供了多种语言的统计数据,包括英语和泰语。

该数据集包含多种金融文本数据,涵盖年度报告、新闻文章和社交媒体帖子等。年度报告由公司每年发布,提供其财务表现和战略展望的见解。新闻文章来自知名金融新闻来源,社交媒体和在线论坛的文本则来自互联网用户。该数据集适用于研究人员、数据科学家和开发者训练语言模型和构建语料库。数据来源于公开渠道,如金融新闻网站、监管机构和社交媒体。数据集提供了多种语言的统计数据,包括英语和泰语。
提供机构:
airesearch
原始信息汇总

金融文本数据集

数据集描述

该数据集包含多种金融文档,分为以下几类:

  • 年度报告:公司每年发布的财务报告,提供财务表现和战略展望的洞察。
  • 新闻文章:来自可信金融新闻来源的文章。
  • 社交媒体和在线论坛:来自互联网用户的文本。

数据来源

数据集来源包括公开可用的资源,例如:

  • 金融新闻网站
  • 监管机构
  • 社交媒体

数据来源统计

语言 数据源名称 单词数量 描述
英语 us_sec 19,393,625,320 美国证券交易委员会的10-K和10-Q表格
英语 filtered_news_cc 1,806,040,675 过滤后的CommonCrawl新闻数据集(2022年快照)
泰语 56-1 332,223,838 泰国证券交易委员会的56-1报告
泰语 finnomena 3,581,152 finnomena.com的新闻文章和帖子
泰语 kasikorn_securities 1,837,789 kasikornsecurities.com的新闻文章和帖子
泰语 longtunman 5,815,737 longtunman.com的新闻文章和帖子
泰语 posttoday 44,129,104 posttoday.com的新闻文章
泰语 prachachat 51,608,162 prachachat.net的新闻文章
泰语 kaohoon 82,639,651 kaohoon.com的新闻文章
泰语 th_sec 1,026,271 sec.or.th和set.or.th的新闻文章和帖子
泰语 thaivi 55,831,304 board.thaivi.org的帖子

许可证

该数据集在CC BY 4.0许可证下提供,允许无限制使用和修改,无论是商业还是非商业目的。使用数据时建议提供本仓库的归属。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作