sentiment-classification

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/left0ver/sentiment-classification

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个来源于飞桨的情感分类数据集，包含文本和标签两个特征，文本长度超过BERT模型支持的512长度时，采用了滑动窗口方法进行拆分处理。数据集分为训练集和验证集，共有9146条训练数据和1200条验证数据。数据集适用于文本分类任务，特别针对情感分类场景。

创建时间：

2025-05-18

原始信息汇总

数据集概述

基本信息

数据集名称: sentiment-classification
许可证: MIT
语言: 中文 (zh)
任务类别: 文本分类 (text-classification)
大小类别: n<1K

数据集结构

特征:
- text: 字符串类型 (string)
- label: 整型 (int32)
数据分割:
- train:
  - 样本数: 9146
  - 大小: 3065685 字节
- validation:
  - 样本数: 1200
  - 大小: 380217 字节
下载大小: 2483947 字节
数据集总大小: 3445902 字节

数据来源

原始来源: 飞桨 (https://aistudio.baidu.com/datasetdetail/221537)

特殊处理

滑动窗口版本: 针对长度超过500的样本进行了拆分处理，适用于BERT模型输入长度限制 (512)。
- 版本地址: https://huggingface.co/datasets/left0ver/sentiment-classification/tree/window_version
- 参考文章: BERT模型输入长度超过512如何解决？

使用方式

普通版本: python dataset = load_dataset("left0ver/sentiment-classification")
滑动窗口版本: python dataset = load_dataset("left0ver/sentiment-classification", revision="window_version")

相关模型

微调模型: left0ver/bert-base-chinese-finetune-sentiment-classification (https://huggingface.co/left0ver/bert-base-chinese-finetune-sentiment-classification)

搜集汇总

数据集介绍

构建方式

该情感分类数据集源自飞桨平台，经过初步处理后公开共享。为适应BERT模型512字符的输入限制，对长度超过500字符的样本采用滑动窗口技术进行分段处理，确保数据完整性。数据集包含训练集和验证集，分别包含9146和1200个样本，文本数据以字符串格式存储，标签为整型数值。

特点

数据集专注于中文文本情感分类任务，具有结构清晰、标注准确的特点。其独特之处在于针对长文本的滑动窗口处理方案，有效解决了模型输入长度限制问题。数据分布均衡，训练集与验证集比例合理，便于模型训练与评估。文本内容涵盖多样化的语言表达，为情感分析研究提供了丰富的语料资源。

使用方法

通过Hugging Face的load_dataset函数可直接加载数据集，标准版和滑动窗口版分别对应不同参数。加载后数据集即呈现为标准的文本分类格式，包含text和label两个字段。研究者可直接将其输入BERT等预训练模型进行微调，滑动窗口版本需特别指定revision参数。推理阶段对分段样本采用概率最大化策略确定最终预测结果。

背景与挑战

背景概述

情感分类作为自然语言处理领域的重要研究方向，旨在通过算法自动识别文本中蕴含的情感倾向。该数据集由飞桨平台于近年发布，专门针对中文文本情感分析任务设计，包含9146条训练样本和1200条验证样本。作为典型的文本分类数据集，其构建基于BERT等预训练语言模型的微调需求，特别关注中文语境下的情感表达特性。数据集发布后，研究者left0ver基于此完成了BERT-base中文模型的微调工作，为中文情感分析提供了可复现的基准模型，对推动领域发展具有积极意义。

当前挑战

该数据集面临的核心挑战体现在算法适配与数据处理两个维度。在算法层面，传统BERT模型对输入文本长度存在512字符的硬性限制，导致长文本情感分析面临信息割裂风险，需采用滑动窗口等特殊处理技术，可能引入上下文断裂的干扰。数据处理方面，中文情感表达的隐晦性与多义性对标注质量提出更高要求，短文本中情感极性判别的模糊性亦增加了模型学习难度。此外，数据集规模相对有限，在深度学习时代可能面临小样本条件下的模型过拟合问题，需通过数据增强或迁移学习等技术予以缓解。

常用场景

经典使用场景

在自然语言处理领域，情感分类数据集sentiment-classification为研究者提供了一个标准化的中文文本情感分析基准。该数据集通过标注文本的情感极性，成为训练和评估情感分类模型的经典资源。特别是在BERT等预训练语言模型的微调过程中，该数据集能够有效验证模型在中文语境下的情感理解能力。其滑动窗口版本的设计，更是解决了长文本输入的技术难题，为处理实际场景中的复杂语料提供了可行方案。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作，其中最典型的是left0ver团队基于BERT-base-chinese的微调模型。该工作不仅验证了数据集的有效性，还为中文情感分析提供了可复现的基准模型。滑动窗口技术的引入进一步激发了关于长文本处理的研究，相关解决方案已被应用于多个开源项目中，推动了中文NLP工具链的完善。

数据集最近研究