five

C-MTCSD|自然语言处理数据集|社交媒体分析数据集

收藏
arXiv2025-04-19 更新2025-04-17 收录
自然语言处理
社交媒体分析
下载链接:
https://github.com/yangyi626/C-MTCSD
下载链接
链接失效反馈
资源简介:
C-MTCSD是一个中文多轮对话立场检测数据集,由深圳技术大学创建。该数据集从新浪微博收集了24,264个经过精心注释的实例,是迄今为止最大的中文对话立场检测数据集,比之前唯一的中文对话立场检测数据集CANT-CSD大4.2倍。数据集涵盖了科技领域的话题(如iPhone 15、Apollo Go)以及具有争议性的社会话题(如不婚主义、裸辞、预制菜)。数据集的构建经历了数据收集、预处理、注释和质量保证等步骤,最终形成了高质量、多样化的对话语料库。C-MTCSD旨在解决中文立场检测研究中存在的挑战,为相关研究提供了新的基准。
提供机构:
深圳技术大学
创建时间:
2025-04-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,立场检测已成为理解公众讨论的关键工具。C-MTCSD数据集的构建过程体现了严谨的科学方法,通过新浪微博API采集了涉及技术和社会议题的高互动性多轮对话。研究团队采用多阶段筛选策略,包括关键词检索、人工审核目标相关性、设置1000次互动阈值及10字以上内容长度要求,确保数据质量。标注环节由10名NLP专家执行双重标注,采用‘反对’、‘支持’、‘中立’三级分类体系,并通过kappa系数(平均0.93)和标注一致性(0.97)验证了标注可靠性。最终构建的24,264条标注实例覆盖6轮对话深度,较现有中文对话立场检测数据集规模扩大4.2倍。
特点
作为当前最大的中文多轮对话立场检测数据集,C-MTCSD展现出三大核心特征:其对话深度分布具有显著优势,27.69%的实例超过3轮对话,而同类数据集仅6.3%;目标主题兼具技术维度(如iPhone15、Apollo Go)与社会议题(不婚主义、预制菜等),构建了平衡的评估基准;数据复杂性体现在隐式目标指代和跨轮次指代消解等挑战,即使最优模型GPT-4在零样本设定下F1值仅达64.07%,深度超过5轮的对话性能下降达25个百分点,为模型上下文理解能力提出更高要求。
使用方法
该数据集支持三类典型应用场景:目标内立场检测采用70/15/15比例划分训练集、验证集和测试集,通过GLAN等融合对话关系的模型可获得66.10%平均F1值;跨目标检测通过箭头标注(如i15→AG)实现知识迁移,最佳迁移性能达47.20%;零样本检测直接评估模型在未见目标上的泛化能力,GPT-4以64.07%表现领先。研究者可通过GitHub获取数据集,建议结合对话历史分析性能随深度衰减的规律,并关注社会议题中隐式立场表达的特殊处理。
背景与挑战
背景概述
C-MTCSD数据集由深圳技术大学的研究团队于2025年推出,是当前最大规模的中文多轮对话立场检测基准数据集。该数据集源自新浪微博平台的公开讨论,包含24,264个经过精细标注的对话实例,覆盖技术产品和社会议题两大领域。作为首个专注于标准汉语多轮对话场景的立场检测资源,其规模达到先前同类数据集的4.2倍,深度对话样本量更实现18倍增长。该数据集的建立填补了中文语境下对话式立场分析的研究空白,为社交媒体舆情分析、观点挖掘等应用提供了重要基础。
当前挑战
该数据集揭示了立场检测领域的两大核心挑战:在领域问题层面,多轮对话中隐式立场表达(如深度为5-6轮时模型性能下降30%)和跨话题迁移(零样本场景最佳F1仅64.07%)构成显著障碍;在构建过程中,中文口语化表达带来的指代消解困难(如微博评论中的隐喻性表述)以及多轮对话的语境依赖性(需连续追踪平均3.4轮历史上下文)对标注一致性提出极高要求,最终通过双重标注机制将标注者间Kappa值提升至0.93以上。
常用场景
经典使用场景
在社交媒体分析领域,C-MTCSD数据集为研究者提供了一个标准化的测试平台,用于评估和比较不同模型在多轮中文对话中的立场检测能力。该数据集特别适用于研究对话深度对立场检测性能的影响,以及模型在处理隐含立场表达时的表现。通过包含多达六轮对话的丰富语境,C-MTCSD能够全面评估模型在复杂对话场景下的理解能力。
解决学术问题
C-MTCSD数据集解决了中文立场检测研究中数据稀缺和语境理解不足的问题。通过提供大规模、高质量的多轮对话标注数据,该数据集使得研究者能够深入探索跨目标立场检测和零样本立场检测等前沿问题。实验结果表明,即使是当前最先进的大型语言模型,在该数据集上的表现也仅有64.07%的F1分数,凸显了这一研究领域的挑战性和未来改进空间。
衍生相关工作
基于C-MTCSD数据集,研究者们已经开展了多项创新性工作。例如,GLAN模型通过融入对话关系知识,在跨目标立场检测任务中取得了显著提升;而GPT-4等大型语言模型的应用研究,则探索了零样本场景下的立场检测可能性。这些衍生工作不仅推动了立场检测技术的发展,也为社交媒体文本分析提供了新的方法论参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录