five

kdave/Indian_Financial_News

收藏
Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kdave/Indian_Financial_News
下载链接
链接失效反馈
官方服务:
资源简介:
IndiaFinanceSent Corpus是一个包含26,000条印度市场金融新闻文章的数据集,主要用于情感分析。数据集包含URL、内容、由T5-base模型生成的摘要和由GPT add-on for Google Sheets收集的情感分析结果。该数据集由Khushi Dave整理,语言为英语,类型为文本,大小为112,293 KB,适用于情感分析研究、NLP项目、算法交易策略等多种用途。

IndiaFinanceSent Corpus是一个包含26,000条印度市场金融新闻文章的数据集,主要用于情感分析。数据集包含URL、内容、由T5-base模型生成的摘要和由GPT add-on for Google Sheets收集的情感分析结果。该数据集由Khushi Dave整理,语言为英语,类型为文本,大小为112,293 KB,适用于情感分析研究、NLP项目、算法交易策略等多种用途。
提供机构:
kdave
原始信息汇总

数据集卡片

数据集概述

FinancialNewsSentiment_26000 数据集包含26,000行与印度市场相关的金融新闻文章。数据集包含四列:URL、Content(抓取的内容)、Summary(使用T5-base模型生成的摘要)和Sentiment Analysis(使用GPT插件在Google Sheets中收集的情感分析)。该数据集旨在用于情感分析任务,提供金融新闻中表达的情感的全面视图。

数据集描述

  • 创建者: Khushi Dave
  • 语言: 英语
  • 类型: 文本
  • 领域: 金融、经济
  • 大小: 112,293 KB
  • 版本: 1.0
  • 最后更新: 2024年1月1日

数据集来源

  • 仓库: https://huggingface.co/datasets/kdave/Indian_Financial_News

用途

  • 情感分析研究: 适用于探索印度金融新闻中的情感细微差别。
  • NLP项目: 通过多样化的金融文本增强NLP模型,以提高理解能力。
  • 算法交易策略: 研究情感变化与市场波动之间的相关性。
  • 新闻聚合: 生成带有情感洞察的金融新闻简明摘要。
  • 教育资源: 用于教授情感分析和金融文本处理的实践示例。
  • 伦理AI探索: 分析情感分析模型中的偏差,用于伦理AI研究。
  • 模型基准测试: 评估和基准测试金融文本的情感分析模型。

数据集创建

  • 格式: 字符串
  • 列:
    • URL:新闻文章的URL
    • Content:新闻文章的抓取内容
    • Summary:使用T5-base生成的摘要
    • Sentiment Analysis:使用GPT插件收集的情感标签(正面、负面、中性)

数据收集

  • 来源选择: 从多个可信来源聚合印度金融新闻文章,涵盖广泛的主题。
  • URL抓取: 提取每个文章的URL,以保持数据集与原始内容之间的联系。
  • 内容抓取: 提取文章内容以进行分析和建模。
  • 摘要: 使用Hugging Face的T5-base模型进行内容摘要。
  • 情感标注: 使用GPT插件在Google Sheets中手动标注情感,将每篇文章分类为正面、负面或中性。

数据处理

  • 清洗和分词: 应用标准预处理技术清洗和分词内容,确保一致性和统一性。
  • 格式标准化: 将数据转换为结构化格式,包含URL、Content、Summary和Sentiment Analysis列。
  • 数据集分割: 由于情感的主观性,数据集未分割为训练、验证和测试集。鼓励用户根据特定用例自定义分割。

工具和库

  • Beautiful Soup: 用于网页抓取,从HTML中提取内容。
  • Hugging Face Transformers: 用于使用T5-base模型进行摘要。
  • GPT Add-on for Google Sheets: 用于手动情感标注。
  • Pandas: 用于数据操作和结构化。

引用

bibtex @dataset{AuthorYearFinancialNewsSentiment_26000, author = {Dave, Khushi}, year = {2024}, title = {IndiaFinanceSent Corpus}, url = {[https://huggingface.co/datasets/kdave/Indian_Financial_News]}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作