kdave/Indian_Financial_News

Name: kdave/Indian_Financial_News
Creator: kdave
Published: 2024-01-06 18:09:18
License: 暂无描述

Hugging Face2024-01-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kdave/Indian_Financial_News

下载链接

链接失效反馈

官方服务：

资源简介：

IndiaFinanceSent Corpus是一个包含26,000条印度市场金融新闻文章的数据集，主要用于情感分析。数据集包含URL、内容、由T5-base模型生成的摘要和由GPT add-on for Google Sheets收集的情感分析结果。该数据集由Khushi Dave整理，语言为英语，类型为文本，大小为112,293 KB，适用于情感分析研究、NLP项目、算法交易策略等多种用途。

提供机构：

kdave

原始信息汇总

数据集卡片

数据集概述

FinancialNewsSentiment_26000 数据集包含26,000行与印度市场相关的金融新闻文章。数据集包含四列：URL、Content（抓取的内容）、Summary（使用T5-base模型生成的摘要）和Sentiment Analysis（使用GPT插件在Google Sheets中收集的情感分析）。该数据集旨在用于情感分析任务，提供金融新闻中表达的情感的全面视图。

数据集描述

创建者： Khushi Dave
语言： 英语
类型： 文本
领域： 金融、经济
大小： 112,293 KB
版本： 1.0
最后更新： 2024年1月1日

数据集来源

仓库： https://huggingface.co/datasets/kdave/Indian_Financial_News

用途

情感分析研究： 适用于探索印度金融新闻中的情感细微差别。
NLP项目： 通过多样化的金融文本增强NLP模型，以提高理解能力。
算法交易策略： 研究情感变化与市场波动之间的相关性。
新闻聚合： 生成带有情感洞察的金融新闻简明摘要。
教育资源： 用于教授情感分析和金融文本处理的实践示例。
伦理AI探索： 分析情感分析模型中的偏差，用于伦理AI研究。
模型基准测试： 评估和基准测试金融文本的情感分析模型。

数据集创建

格式： 字符串
列：
- URL：新闻文章的URL
- Content：新闻文章的抓取内容
- Summary：使用T5-base生成的摘要
- Sentiment Analysis：使用GPT插件收集的情感标签（正面、负面、中性）

数据收集

来源选择： 从多个可信来源聚合印度金融新闻文章，涵盖广泛的主题。
URL抓取： 提取每个文章的URL，以保持数据集与原始内容之间的联系。
内容抓取： 提取文章内容以进行分析和建模。
摘要： 使用Hugging Face的T5-base模型进行内容摘要。
情感标注： 使用GPT插件在Google Sheets中手动标注情感，将每篇文章分类为正面、负面或中性。

数据处理

清洗和分词： 应用标准预处理技术清洗和分词内容，确保一致性和统一性。
格式标准化： 将数据转换为结构化格式，包含URL、Content、Summary和Sentiment Analysis列。
数据集分割： 由于情感的主观性，数据集未分割为训练、验证和测试集。鼓励用户根据特定用例自定义分割。

工具和库

Beautiful Soup： 用于网页抓取，从HTML中提取内容。
Hugging Face Transformers： 用于使用T5-base模型进行摘要。
GPT Add-on for Google Sheets： 用于手动情感标注。
Pandas： 用于数据操作和结构化。

引用

bibtex @dataset{AuthorYearFinancialNewsSentiment_26000, author = {Dave, Khushi}, year = {2024}, title = {IndiaFinanceSent Corpus}, url = {[https://huggingface.co/datasets/kdave/Indian_Financial_News]}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集