Tri-Class-Sentiment-Synthetic
收藏Hugging Face2024-09-29 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Novora/Tri-Class-Sentiment-Synthetic
下载链接
链接失效反馈官方服务:
资源简介:
一个用于训练三分类(`POSITIVE`、`NEUTRAL`、`NEGATIVE`)情感分析AI的合成数据集。数据集中的文本被标记为三种情感之一,并使用整数表示:1表示`POSITIVE`,0表示`NEUTRAL`,-1表示`NEGATIVE`。数据集由`phi3.5-mini-instruct-q8_0`生成,未经过人工筛选。数据集仅包含英文文本,适用于任何目的的使用,因为其采用CC0-1.0许可证,即公共领域许可证。
This is a synthetic dataset for training three-class sentiment analysis AI systems. Texts in the dataset are labeled with one of the three sentiment categories via integer notation: 1 represents `POSITIVE`, 0 represents `NEUTRAL`, and -1 represents `NEGATIVE`. This dataset was generated by `phi3.5-mini-instruct-q8_0` and has not undergone manual screening. The dataset exclusively contains English text, and is available for any intended use as it is licensed under CC0-1.0, a public domain license.
提供机构:
Novora
创建时间:
2024-09-29
原始信息汇总
Tri-Class Synthetic Sentiment Dataset
数据集描述
- 任务类别: 文本分类
- 语言: 英语
- 名称: Tri-Class Synthetic Sentiment Dataset
- 描述: 用于训练三分类(
POSITIVE,NEUTRAL,NEGATIVE)情感分析AI的合成数据集。数据均匀分为POSITIVE、NEUTRAL和NEGATIVE三种情感。 - 标签:
text: 包含评论文本sentiment: 整数,1表示POSITIVE,0表示NEUTRAL,-1表示NEGATIVE情感
- 生成模型:
phi3.5:3.8b-mini-instruct-q8_0 - 是否经过筛选: 否
- 资助: 自费
- 共享者: James David Clarke james@jamesdavidclarke.com
- 许可证: CC0-1.0
数据集来源
- 生成脚本: GitHub链接
- 论文: 即将发布
- 演示: 无
使用场景
- 直接使用: 用于训练三分类或二分类情感分析AI。
- 超出范围使用: 仅适用于情感分析任务,不适用于情感检测以外的任务。
数据集结构
text: 包含评论文本sentiment: 整数,1表示POSITIVE,0表示NEUTRAL,-1表示NEGATIVE情感
数据集创建
- 创建理由: 现有情感分析数据集的许可限制较多,因此作者自行创建了一个许可宽松的数据集。
- 源数据: 合成数据,由
phi3.5:3.8b-mini-instruct-q8_0生成,托管在个人Ollama服务器上。 - 数据收集和处理: 数据集创建并添加到mongodb数据库,删除了
_id字段,未进行其他处理。 - 数据生产者:
phi3.5-mini,但作者是版权持有者。
偏见、风险和限制
- 偏见: 数据集仅包含英语文本。
- 限制: 数据未经筛选,由模型零样本生成,可能影响训练质量。
- 建议: 建议用户对数据集进行筛选和过滤以提高质量。
引用
- BibTeX: [待补充]
- APA: [待补充]
术语
- LLM: 大型语言模型,能够生成和响应文本的AI模型。
- phi3.5-mini: 由Microsoft开发的LLM,MIT许可,适合生成大规模数据集。
- Synthetic Dataset: 合成数据集,由AI生成,可无限生成,但可能不代表真实世界数据。
- Tri-Class Sentiment Analysis: 将文本分类为三种情感(
POSITIVE,NEUTRAL,NEGATIVE)的行为。
更多信息
- 注意: 该数据集未经筛选或过滤,可能不代表真实世界数据,建议用户自行筛选以确保高质量数据。
数据集卡片作者
- James David Clarke
联系
- 邮箱: james@novora.ai
搜集汇总
数据集介绍

构建方式
Tri-Class-Sentiment-Synthetic数据集的构建采用了合成数据生成技术,通过`phi3.5-mini-instruct-q8_0`模型自动生成。该模型在个人`Ollama`服务器上运行,生成了包含`POSITIVE`、`NEUTRAL`和`NEGATIVE`三种情感类别的文本数据。生成的数据未经人工筛选或处理,直接存储于MongoDB数据库中,并移除了`_id`字段以简化数据结构。
特点
该数据集的特点在于其完全由合成数据构成,涵盖了英语文本的三种基本情感类别:积极、中立和消极。每个数据点包含文本内容和对应的情感标签,情感标签以整数形式表示,分别为1、0和-1。由于数据未经人工筛选,其质量可能受到模型生成能力的限制,但这也为用户提供了进一步筛选和优化的空间。
使用方法
Tri-Class-Sentiment-Synthetic数据集主要用于训练三分类情感分析模型,适用于市场研究和学术研究等领域。用户可以直接使用该数据集进行模型训练,但由于数据未经筛选,建议在使用前进行进一步的数据清洗和过滤,以提高训练数据的质量。此外,该数据集采用CC0-1.0许可,允许用户自由使用,无需注明来源。
背景与挑战
背景概述
Tri-Class-Sentiment-Synthetic数据集是一个专为三分类(正面、中性、负面)情感分析任务设计的合成数据集,由James David Clarke创建并共享。该数据集采用CC0-1.0许可,允许无限制使用,甚至无需署名。数据通过`phi3.5-mini-instruct-q8_0`模型生成,未经过人工筛选或处理。其核心研究问题在于为情感分析任务提供高质量的训练数据,尤其是在缺乏宽松许可的真实数据集的情况下。该数据集的发布为情感分析领域的研究者和开发者提供了一个灵活且可扩展的数据资源,推动了相关技术的进一步发展。
当前挑战
Tri-Class-Sentiment-Synthetic数据集面临的主要挑战包括两个方面。首先,在领域问题层面,尽管该数据集为三分类情感分析提供了基础数据,但其合成性质可能导致数据分布与真实世界数据存在偏差,从而影响模型的泛化能力。其次,在构建过程中,由于数据完全由模型生成且未经人工筛选,可能存在噪声或不一致性问题,进一步降低了数据的可靠性。此外,数据仅包含英文文本,限制了其在多语言场景中的应用。因此,用户在使用该数据集时,需进行额外的数据筛选和优化,以确保训练模型的高质量与实用性。
常用场景
经典使用场景
Tri-Class-Sentiment-Synthetic数据集在情感分析领域具有广泛的应用,尤其是在训练三分类(正面、中性、负面)情感分析模型时表现出色。该数据集通过生成大量标注数据,帮助研究人员和开发者构建高效的情感分类模型,适用于社交媒体评论、产品评价等多种文本数据的分析。
解决学术问题
该数据集解决了情感分析研究中数据稀缺和标注成本高的问题。通过使用合成数据,研究人员可以快速获取大量标注样本,从而加速模型训练和验证过程。此外,该数据集的三分类设计为复杂情感分析任务提供了更精细的解决方案,推动了情感分析技术的进一步发展。
衍生相关工作
基于Tri-Class-Sentiment-Synthetic数据集,许多经典的情感分析模型和算法得以开发和优化。例如,研究人员利用该数据集训练了基于深度学习的多分类情感分析模型,并在多个公开评测中取得了优异的成绩。此外,该数据集还促进了情感分析与其他自然语言处理任务的结合,如情感驱动的文本生成和情感增强的对话系统。
以上内容由遇见数据集搜集并总结生成



