chinese-logic-sentiment-dataset
收藏Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/YiMeng-SYSU/chinese-logic-sentiment-dataset
下载链接
链接失效反馈官方服务:
资源简介:
中文逻辑情感分析数据集是一个专门设计用于增强中文情感分析模型逻辑推理能力的数据集,由豆包API生成并经过人工清洗和筛选。数据集包含四种逻辑类型:反讽(Irony)、双重否定(Double Negative)、转折(Transition)和简单句(Simple)。数据集分为三个部分:训练集(2176条样本)、验证集(545条样本)和测试集(960条样本)。每个样本包含文本内容(text)、情感标签(label,0表示负面,1表示正面)、逻辑类型(type)、逻辑子类型(sub_type)和领域(domain,包括影视、美食、旅游、生活、购物和社交)。该数据集适用于中文情感分析任务,特别是需要处理复杂逻辑表达的场景。
创建时间:
2026-02-02
原始信息汇总
中文逻辑情感分析数据集概述
数据集基本信息
- 数据集名称:中文逻辑情感分析数据集 (由豆包API生成)
- 语言:中文 (zh)
- 许可协议:Apache-2.0
- 数据规模:1k<n<10k
- 任务类别:文本分类 (text-classification)
- 标签:情感分析,逻辑推理,中文,反讽,豆包
数据集来源与关联
- 主页:https://github.com/MengzhongRe/bert-logic-finetune
- 代码仓库:https://github.com/MengzhongRe/bert-logic-finetune
- 数据生成方:豆包 API
- 数据处理:经过人工清洗/筛选
数据集目的与内容
这是一个专门用于增强中文情感分析模型逻辑推理能力的数据集。它包含 反讽(Irony)、双重否定(Double Negative)、转折(Transition) 和 简单句(Simple) 四种逻辑类型。
数据结构与划分
该数据集包含三个部分:
- 训练集 (train.csv):包含 2176 条样本。
- 验证集 (val.csv):包含 545 条样本。
- 测试集 (test.csv):包含 960 条样本,用于模型最终评估。
数据字段说明
| 字段 | 描述 |
|---|---|
text |
中文文本内容 |
label |
情感标签,0 表示负面,1 表示正面 |
type |
逻辑类型,包含反讽、双重否定、转折和简单句 |
sub_type |
逻辑子类型,进一步细分逻辑结构 |
domain |
领域 (影视/美食/旅游/生活/购物/社交) |
使用方式
可通过 datasets 库加载:
python
from datasets import load_dataset
dataset = load_dataset(YiMeng-SYSU/chinese-logic-sentiment-dataset)
数据生成详情
数据生成脚本、提示词模板和清洗过程可在关联的 GitHub 仓库 MengzhongRe/bert-logic-finetune 中查看。
- 数据生成脚本地址:https://github.com/MengzhongRe/bert-logic-finetune/tree/main/data_gen
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,情感分析模型的逻辑推理能力至关重要。该数据集通过豆包API生成原始文本,并经过人工清洗与筛选,确保了数据质量。构建过程涵盖了反讽、双重否定、转折和简单句四种逻辑类型,每种类型均基于特定提示词模板生成,以模拟复杂语言现象。数据进一步细分为训练集、验证集和测试集,分别包含2176、545和960条样本,覆盖影视、美食、旅游等多个领域,为模型训练提供了结构化基础。
特点
该数据集专注于中文情感分析中的逻辑推理挑战,其核心特点在于系统性地整合了反讽、双重否定、转折和简单句等逻辑类型,每种类型均配有子类型细分,以深入捕捉语言微妙之处。数据样本涵盖六个不同领域,如影视和购物,增强了模型的泛化能力。情感标签采用二元分类,正面为1,负面为0,结构清晰,便于直接应用于文本分类任务,为研究复杂情感表达提供了丰富资源。
使用方法
利用该数据集时,用户可通过Hugging Face的datasets库直接加载,使用load_dataset函数调用'YiMeng-SYSU/chinese-logic-sentiment-dataset'即可访问训练、验证和测试部分。数据以CSV格式存储,包含文本、标签、逻辑类型等字段,支持快速集成到机器学习流程中。通过分析逻辑类型和领域分布,研究者可针对性地评估模型在复杂推理场景下的性能,推动中文情感分析技术的进步。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为一项基础任务,长期致力于从文本中准确提取情感极性。然而,传统方法在处理蕴含复杂逻辑结构的中文文本时,如反讽、双重否定和语义转折,往往表现乏力,难以捕捉字面意义之外的深层情感。为应对这一挑战,由MengzhongRe等研究人员构建的中文逻辑情感分析数据集应运而生。该数据集依托豆包API生成并经过人工精细清洗,专门设计用于增强模型在逻辑推理方面的能力,其核心研究问题聚焦于提升模型对复杂逻辑表达的情感理解精度,对推动中文情感分析向更深层次的语义理解发展具有显著影响力。
当前挑战
该数据集旨在解决的领域挑战,主要体现为提升模型对中文复杂逻辑表达的情感分类准确性。具体而言,反讽、双重否定及转折等逻辑结构使得文本的情感极性往往与字面含义相悖,要求模型具备超越表层模式的深层推理能力。在构建过程中,挑战同样突出:一方面,通过API大规模生成兼具逻辑复杂性与自然流畅度的中文文本本身存在难度;另一方面,后续的人工清洗与筛选需确保数据质量与逻辑标签的准确性,这一过程耗时耗力且对标注者的语言学素养提出了较高要求。
常用场景
解决学术问题
传统情感分析模型往往局限于词汇层面的统计特征,难以应对逻辑曲折的中文表达。该数据集直接针对反讽识别、双重否定消解和转折关系理解等核心学术问题,为模型提供了结构化训练样本。其意义在于推动了情感分析从浅层分类向深层推理的范式转变,通过引入逻辑类型标注,促进了跨领域、多场景的细粒度情感建模,为构建更鲁棒、可解释的中文自然语言理解系统奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,包括基于BERT和RoBERTa的预训练模型微调框架,如公开的roberta-logic-sentiment-zh模型。这些工作探索了逻辑感知的情感分类架构,结合注意力机制增强模型对转折和否定结构的敏感性。同时,研究者进一步扩展了数据集的适用场景,将其与多任务学习、对抗训练等技术结合,推动了中文情感推理在学术和工业界的持续创新。
以上内容由遇见数据集搜集并总结生成



