kdave/Indian_Financial_News
收藏Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kdave/Indian_Financial_News
下载链接
链接失效反馈官方服务:
资源简介:
IndiaFinanceSent Corpus是一个包含26,000条印度市场金融新闻文章的数据集,主要用于情感分析。数据集包含URL、内容、由T5-base模型生成的摘要和由GPT add-on for Google Sheets收集的情感分析结果。该数据集由Khushi Dave整理,语言为英语,类型为文本,大小为112,293 KB,适用于情感分析研究、NLP项目、算法交易策略等多种用途。
IndiaFinanceSent Corpus是一个包含26,000条印度市场金融新闻文章的数据集,主要用于情感分析。数据集包含URL、内容、由T5-base模型生成的摘要和由GPT add-on for Google Sheets收集的情感分析结果。该数据集由Khushi Dave整理,语言为英语,类型为文本,大小为112,293 KB,适用于情感分析研究、NLP项目、算法交易策略等多种用途。
提供机构:
kdave
原始信息汇总
数据集卡片
数据集概述
FinancialNewsSentiment_26000 数据集包含26,000行与印度市场相关的金融新闻文章。数据集包含四列:URL、Content(抓取的内容)、Summary(使用T5-base模型生成的摘要)和Sentiment Analysis(使用GPT插件在Google Sheets中收集的情感分析)。该数据集旨在用于情感分析任务,提供金融新闻中表达的情感的全面视图。
数据集描述
- 创建者: Khushi Dave
- 语言: 英语
- 类型: 文本
- 领域: 金融、经济
- 大小: 112,293 KB
- 版本: 1.0
- 最后更新: 2024年1月1日
数据集来源
- 仓库: https://huggingface.co/datasets/kdave/Indian_Financial_News
用途
- 情感分析研究: 适用于探索印度金融新闻中的情感细微差别。
- NLP项目: 通过多样化的金融文本增强NLP模型,以提高理解能力。
- 算法交易策略: 研究情感变化与市场波动之间的相关性。
- 新闻聚合: 生成带有情感洞察的金融新闻简明摘要。
- 教育资源: 用于教授情感分析和金融文本处理的实践示例。
- 伦理AI探索: 分析情感分析模型中的偏差,用于伦理AI研究。
- 模型基准测试: 评估和基准测试金融文本的情感分析模型。
数据集创建
- 格式: 字符串
- 列:
- URL:新闻文章的URL
- Content:新闻文章的抓取内容
- Summary:使用T5-base生成的摘要
- Sentiment Analysis:使用GPT插件收集的情感标签(正面、负面、中性)
数据收集
- 来源选择: 从多个可信来源聚合印度金融新闻文章,涵盖广泛的主题。
- URL抓取: 提取每个文章的URL,以保持数据集与原始内容之间的联系。
- 内容抓取: 提取文章内容以进行分析和建模。
- 摘要: 使用Hugging Face的T5-base模型进行内容摘要。
- 情感标注: 使用GPT插件在Google Sheets中手动标注情感,将每篇文章分类为正面、负面或中性。
数据处理
- 清洗和分词: 应用标准预处理技术清洗和分词内容,确保一致性和统一性。
- 格式标准化: 将数据转换为结构化格式,包含URL、Content、Summary和Sentiment Analysis列。
- 数据集分割: 由于情感的主观性,数据集未分割为训练、验证和测试集。鼓励用户根据特定用例自定义分割。
工具和库
- Beautiful Soup: 用于网页抓取,从HTML中提取内容。
- Hugging Face Transformers: 用于使用T5-base模型进行摘要。
- GPT Add-on for Google Sheets: 用于手动情感标注。
- Pandas: 用于数据操作和结构化。
引用
bibtex @dataset{AuthorYearFinancialNewsSentiment_26000, author = {Dave, Khushi}, year = {2024}, title = {IndiaFinanceSent Corpus}, url = {[https://huggingface.co/datasets/kdave/Indian_Financial_News]}, }



