five

strombergnlp/nlpcc-stance|自然语言处理数据集|社交媒体分析数据集

收藏
hugging_face2022-10-25 更新2024-03-04 收录
自然语言处理
社交媒体分析
下载链接:
https://hf-mirror.com/datasets/strombergnlp/nlpcc-stance
下载链接
链接失效反馈
资源简介:
这是一个中文立场预测数据集,专门用于检测中文微博中的立场。数据集源自NLPCC-ICCPOL 2016的一个共享任务,旨在通过给定的标记数据检测对五个兴趣目标的立场。数据集中的每个实例包括一个唯一ID、目标、文本和立场标签,其中立场标签分为反对、支持或无立场。数据集由中国的学生进行标注,确保了标注的一致性和可靠性。该数据集仅包含中文数据,并根据CC-BY-4.0许可发布。
提供机构:
strombergnlp
原始信息汇总

数据集概述

数据集基本信息

  • 名称: NLPCC 2016: Stance Detection in Chinese Microblogs
  • 语言: 中文 (bcp47:zh)
  • 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 数据来源: 原创数据
  • 任务类别: 文本分类
  • 任务ID: 情感分析
  • 标签: 立场检测

数据集描述

  • 概述: 这是一个关于中文立场预测的数据集。数据来源于NLPCC-ICCPOL 2016的一个共享任务,即中文微博中的立场检测。该任务是强制性的监督任务,旨在检测对五个兴趣目标的立场。
  • 支持的任务: 中文微博中的立场检测

数据集结构

  • 数据实例: 每个实例包含四个字段:id(唯一标识符)、target(立场目标)、text(包含立场的文本)、stance(立场类别,0表示反对,1表示支持,2表示无立场)。
  • 数据字段:
    • id: 字符串,实例的唯一标识
    • target: 字符串,立场的目标
    • text: 字符串,包含立场的文本
    • stance: 整数,立场类别(0: AGAINST, 1: FAVOR, 2: NONE)
  • 数据分割: 训练集包含2986个实例

数据集创建

  • 采集理由: 目的是创建一个针对微博文本的立场标注数据集。选择了六个立场目标,并从新浪微博收集数据进行标注。
  • 源数据:
    • 语言生产者: 新浪微博用户
  • 标注:
    • 标注过程: 每个目标-微博对由两名学生独立标注。如果两人标注一致,则确定立场;否则由第三名学生进行标注,并通过投票确定最终标签。
    • 标注者: 中国学生

使用数据时的考虑

  • 社会影响: 数据保留了社交媒体言论的原貌,可能涉及隐私问题。
  • 偏见讨论: 数据存在时间、地域和主题的偏见。

其他信息

  • 数据集管理员: 论文作者

  • 许可证信息: 数据集根据CC-BY 4.0许可证分发

  • 引用信息:

    @incollection{xu2016overview, title={Overview of nlpcc shared task 4: Stance detection in chinese microblogs}, author={Xu, Ruifeng and Zhou, Yu and Wu, Dongyin and Gui, Lin and Du, Jiachen and Xue, Yun}, booktitle={Natural language understanding and intelligent applications}, pages={907--916}, year={2016}, publisher={Springer} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于NLPCC-ICCPOL 2016共享任务的基础上,专注于中文微博中的立场检测。数据来源于新浪微博,针对六个特定目标进行立场标注。标注过程由两名学生独立完成,若标注结果不一致,则由第三名学生进行仲裁,最终通过投票确定标签。
特点
该数据集包含2986个训练实例,每个实例包括微博文本、目标主题及立场标签。立场标签分为三类:反对(AGAINST)、支持(FAVOR)和无立场(NONE)。数据集专注于中文微博语境,反映了社交媒体用户在特定话题上的立场表达。
使用方法
该数据集适用于中文立场检测任务,尤其适合用于训练和评估立场分类模型。用户可通过加载数据集,提取文本和目标主题,结合立场标签进行模型训练。数据集的使用需遵循CC-BY 4.0许可,确保在引用时注明原始来源。
背景与挑战
背景概述
NLPCC Stance数据集由NLPCC-ICCPOL 2016会议中的共享任务创建,专注于中文微博中的立场检测。该数据集由专家生成,主要研究人员包括Xu Ruifeng等人,旨在通过标注数据检测用户对五个特定目标的立场。数据集涵盖了从新浪微博收集的文本,经过双重标注以确保标签的准确性。该数据集在自然语言处理领域具有重要影响力,特别是在中文社交媒体文本分析方面,为立场检测任务提供了宝贵的资源。
当前挑战
NLPCC Stance数据集面临的挑战主要包括两个方面。首先,立场检测任务本身具有复杂性,尤其是在中文语境下,文本的语义表达多样且隐含,导致立场分类的难度增加。其次,数据集的构建过程中,标注的一致性是一个关键问题。尽管采用了双重标注和第三方仲裁的机制,但不同标注者之间的主观差异仍可能导致标签的不一致性。此外,数据集仅涵盖六个话题,可能存在话题覆盖不足的问题,限制了模型的泛化能力。
常用场景
经典使用场景
在社交媒体分析领域,strombergnlp/nlpcc-stance数据集被广泛应用于中文微博的立场检测研究。该数据集通过提供标注的微博文本,帮助研究者训练和测试立场检测模型,从而识别用户对特定话题的支持、反对或中立态度。这一过程不仅涉及自然语言处理技术,还深入探讨了社交媒体中的用户行为和心理。
衍生相关工作
基于strombergnlp/nlpcc-stance数据集,研究者们已经开发了多种立场检测算法和模型。这些工作不仅提升了立场检测的准确性和效率,还促进了跨语言立场检测技术的发展。此外,该数据集还激发了关于社交媒体数据伦理和隐私保护的研究,推动了相关领域的技术进步和政策制定。
数据集最近研究
最新研究方向
在社交媒体分析领域,立场检测(Stance Detection)已成为自然语言处理(NLP)研究的热点之一。NLPCC Stance数据集作为中文微博立场检测的基准数据集,近年来在立场检测模型的训练与评估中发挥了关键作用。随着深度学习技术的进步,研究者们开始探索基于预训练语言模型(如BERT、RoBERTa)的立场检测方法,以提高模型在复杂语境下的表现。此外,跨领域立场检测和零样本学习也成为研究的前沿方向,旨在提升模型在未见过的主题或语言环境中的泛化能力。该数据集的应用不仅推动了中文社交媒体分析技术的发展,还为理解公众舆论和情感倾向提供了重要工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

Online Retail II

该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。

github 收录