sentiment_data_sets

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/seandearnaley/sentiment_data_sets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集项目涉及处理多种用于情感分析的数据集，包括航空推文、金融短语银行和新闻文章等，旨在将这些数据集整合并准备用于机器学习模型。

This dataset project involves processing multiple datasets for sentiment analysis, including airline tweets, financial phrase banks, and news articles, aiming to integrate and prepare these datasets for machine learning models.

创建时间：

2024-04-24

原始信息汇总

数据集概述

数据集结构

sentiment_data_sets/ │ ├── data/ │ ├── inputs/ │ │ ├── airline_tweaks/ │ │ ├── articles/ │ │ ├── FinancialPhraseBank-v1.0/ │ ├── outputs/ │ └── Combined_Articles.csv │ ├── messages/ ├── utils/ ├── step-01-process_tweets.py ├── step-02-process_financial_phrase_bank.py ├── step-03-process_articles.py ├── step-04-join_outputs.py ├── step-05-build_hf_dataset_sharegpt.py ├── pyproject.toml └── README.md

数据处理步骤

Step 1: 处理推文

文件: step-01-process_tweets.py
功能:
- 情感映射: 将情感标签（正面、中性、负面）转换为数值（1.0, 0.0, -1.0）。
- 数据处理: 读取输入CSV，处理每条推文，并构建包含情感、置信度和推理的JSON对象。
- 输出: 将处理后的数据保存到新的CSV文件。
数据源: Twitter Airline Sentiment

Step 2: 处理金融短语库

文件: step-02-process_financial_phrase_bank.py
功能:
- 置信度评分: 根据情感注释的一致性级别分配不同的置信度评分。
- 情感映射: 将情感标签转换为数值。
- 数据处理: 读取数据集，处理每个短语，并构建JSON对象。
- 输出: 将不同一致性级别的处理数据合并到单个CSV文件。
数据源: Financial PhraseBank

Step 3: 处理文章

文件: step-03-process_articles.py
功能:
- API集成: 使用多种AI模型（如OpenAI GPT-3.5, GPT-4）进行情感分析。
- 重试机制: 实现重试机制以处理API调用失败。
- 数据验证: 使用Pydantic模型确保生成的JSON响应有效。
- 输出: 将带有情感分析的文章保存到CSV文件。
数据源: News Articles

Step 4: 合并输出

文件: step-04-join_outputs.py
功能:
- 数据净化: 确保所有数据格式一致且无编码问题。
- JSON验证: 验证JSON字符串以确保它们符合预期格式。
- 输出: 将所有处理过的数据集的有效记录合并到一个CSV文件。

Step 5: 构建HuggingFace数据集

文件: step-05-build_hf_dataset_sharegpt.py
功能:
- 数据转换: 读取合并的CSV文件，净化数据，并将其转换为JSON格式。
- 数据集结构: 将数据组织成适合在HuggingFace上训练模型的对话格式。
- 输出: 将转换后的数据保存到准备上传的JSON文件。

实用脚本

文件: utils/sentiment_response.py, utils/utils.py
功能:
- SentimentResponse: 用于验证JSON响应的Pydantic模型。
- 文件实用程序: 用于读取消息、生成记录ID和加载/保存处理记录的函数。

依赖

Python版本: 3.12
包: litellm, openai, python-dotenv, pydantic
依赖管理: 使用Poetry，如pyproject.toml文件所示。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个来源的数据，构建了一个用于情感分析的综合数据集。首先，处理了航空公司的推文数据集，将其情感标签映射为数值，并生成包含情感、置信度和推理的JSON对象。接着，处理了金融短语库数据集，根据情感注释的一致性分配置信度分数，并将不同一致性级别的数据合并。随后，处理了新闻文章数据集，利用多种语言模型生成合成输出，并通过API集成和重试机制确保数据的有效性。最后，将所有处理后的数据集合并为一个统一的CSV文件，并转换为适合上传至HuggingFace的格式。

特点

该数据集的显著特点在于其多样性和整合性。它不仅涵盖了社交媒体、金融和新闻领域的数据，还通过不同的处理步骤确保了数据的统一性和高质量。数据集中的情感标签被映射为数值，便于机器学习模型的直接使用。此外，通过API集成和重试机制，确保了数据处理的稳定性和可靠性。最终生成的数据集格式适合于HuggingFace平台上的共享和模型训练。

使用方法

使用该数据集时，用户需按照提供的步骤依次运行处理脚本，从推文、金融短语和新闻文章数据集中提取并整合情感分析数据。首先，用户需安装依赖项并设置环境变量，然后按顺序运行每个处理脚本。最终，生成的合并数据集可用于训练情感分析模型，或上传至HuggingFace平台进行共享。用户可根据需要调整脚本，以适应不同的数据源和应用场景。

背景与挑战

背景概述

情感分析作为自然语言处理领域的重要分支，近年来在社交媒体监控、金融预测和新闻分析等多个领域展现出显著的应用价值。sentiment_data_sets数据集项目由一组研究人员或机构创建，旨在通过整合多个来源的情感数据集，为机器学习模型提供高质量的训练数据。该项目涵盖了航空推文、金融短语和新闻文章等多个数据集，通过统一的格式处理和整合，为情感分析研究提供了丰富的资源。其核心研究问题在于如何有效整合不同来源的情感数据，并确保数据的质量和一致性，从而推动情感分析技术在实际应用中的进一步发展。

当前挑战

sentiment_data_sets数据集在构建过程中面临多重挑战。首先，不同来源的数据集在格式、标注标准和情感分类方式上存在显著差异，如何将这些异构数据整合为统一的格式是一个技术难题。其次，情感分析的准确性依赖于高质量的标注数据，而部分数据集的标注可能存在不一致或噪声，这增加了数据处理的复杂性。此外，使用API进行情感分析时，API调用的稳定性和响应时间也是需要解决的问题。最后，将处理后的数据转换为适合HuggingFace平台使用的格式，涉及到数据结构的重新组织和验证，确保数据在共享和训练过程中的可用性和一致性。

常用场景

经典使用场景

在情感分析领域，sentiment_data_sets数据集的经典使用场景主要集中在构建和训练情感分类模型。该数据集通过整合多个来源的情感数据，包括航空推文、金融短语和新闻文章，提供了一个多领域、多类型的情感标注数据集。研究者可以利用这些数据训练机器学习模型，以识别和分类文本中的情感倾向，如正面、中性或负面情感。

解决学术问题

sentiment_data_sets数据集解决了情感分析领域中多源数据整合与标准化处理的学术问题。通过将不同来源的数据进行统一处理和格式化，该数据集为研究者提供了一个高质量的情感分析基准数据集，有助于推动情感分类模型的性能提升。此外，该数据集还为跨领域情感分析提供了可能性，促进了情感分析技术在不同领域的应用研究。

衍生相关工作

基于sentiment_data_sets数据集，研究者们开发了多种情感分析模型和工具。例如，有研究利用该数据集训练的模型在社交媒体情感分析竞赛中取得了优异成绩；还有研究者将其应用于金融市场的情感分析，提出了新的情感驱动投资策略。此外，该数据集还为情感分析领域的多模态数据融合研究提供了基础，推动了情感分析技术在多领域的深入应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集