airesearch/CMDF_VISTEC
收藏Hugging Face2024-07-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/airesearch/CMDF_VISTEC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种金融文本数据,涵盖年度报告、新闻文章和社交媒体帖子等。年度报告由公司每年发布,提供其财务表现和战略展望的见解。新闻文章来自知名金融新闻来源,社交媒体和在线论坛的文本则来自互联网用户。该数据集适用于研究人员、数据科学家和开发者训练语言模型和构建语料库。数据来源于公开渠道,如金融新闻网站、监管机构和社交媒体。数据集提供了多种语言的统计数据,包括英语和泰语。
该数据集包含多种金融文本数据,涵盖年度报告、新闻文章和社交媒体帖子等。年度报告由公司每年发布,提供其财务表现和战略展望的见解。新闻文章来自知名金融新闻来源,社交媒体和在线论坛的文本则来自互联网用户。该数据集适用于研究人员、数据科学家和开发者训练语言模型和构建语料库。数据来源于公开渠道,如金融新闻网站、监管机构和社交媒体。数据集提供了多种语言的统计数据,包括英语和泰语。
提供机构:
airesearch
原始信息汇总
金融文本数据集
数据集描述
该数据集包含多种金融文档,分为以下几类:
- 年度报告:公司每年发布的财务报告,提供财务表现和战略展望的洞察。
- 新闻文章:来自可信金融新闻来源的文章。
- 社交媒体和在线论坛:来自互联网用户的文本。
数据来源
数据集来源包括公开可用的资源,例如:
- 金融新闻网站
- 监管机构
- 社交媒体
数据来源统计
| 语言 | 数据源名称 | 单词数量 | 描述 |
|---|---|---|---|
| 英语 | us_sec | 19,393,625,320 | 美国证券交易委员会的10-K和10-Q表格 |
| 英语 | filtered_news_cc | 1,806,040,675 | 过滤后的CommonCrawl新闻数据集(2022年快照) |
| 泰语 | 56-1 | 332,223,838 | 泰国证券交易委员会的56-1报告 |
| 泰语 | finnomena | 3,581,152 | finnomena.com的新闻文章和帖子 |
| 泰语 | kasikorn_securities | 1,837,789 | kasikornsecurities.com的新闻文章和帖子 |
| 泰语 | longtunman | 5,815,737 | longtunman.com的新闻文章和帖子 |
| 泰语 | posttoday | 44,129,104 | posttoday.com的新闻文章 |
| 泰语 | prachachat | 51,608,162 | prachachat.net的新闻文章 |
| 泰语 | kaohoon | 82,639,651 | kaohoon.com的新闻文章 |
| 泰语 | th_sec | 1,026,271 | sec.or.th和set.or.th的新闻文章和帖子 |
| 泰语 | thaivi | 55,831,304 | board.thaivi.org的帖子 |
许可证
该数据集在CC BY 4.0许可证下提供,允许无限制使用和修改,无论是商业还是非商业目的。使用数据时建议提供本仓库的归属。



