strombergnlp/nlpcc-stance|自然语言处理数据集|社交媒体分析数据集
收藏数据集概述
数据集基本信息
- 名称: NLPCC 2016: Stance Detection in Chinese Microblogs
- 语言: 中文 (
bcp47:zh
) - 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 数据来源: 原创数据
- 任务类别: 文本分类
- 任务ID: 情感分析
- 标签: 立场检测
数据集描述
- 概述: 这是一个关于中文立场预测的数据集。数据来源于NLPCC-ICCPOL 2016的一个共享任务,即中文微博中的立场检测。该任务是强制性的监督任务,旨在检测对五个兴趣目标的立场。
- 支持的任务: 中文微博中的立场检测
数据集结构
- 数据实例: 每个实例包含四个字段:id(唯一标识符)、target(立场目标)、text(包含立场的文本)、stance(立场类别,0表示反对,1表示支持,2表示无立场)。
- 数据字段:
- id: 字符串,实例的唯一标识
- target: 字符串,立场的目标
- text: 字符串,包含立场的文本
- stance: 整数,立场类别(0: AGAINST, 1: FAVOR, 2: NONE)
- 数据分割: 训练集包含2986个实例
数据集创建
- 采集理由: 目的是创建一个针对微博文本的立场标注数据集。选择了六个立场目标,并从新浪微博收集数据进行标注。
- 源数据:
- 语言生产者: 新浪微博用户
- 标注:
- 标注过程: 每个目标-微博对由两名学生独立标注。如果两人标注一致,则确定立场;否则由第三名学生进行标注,并通过投票确定最终标签。
- 标注者: 中国学生
使用数据时的考虑
- 社会影响: 数据保留了社交媒体言论的原貌,可能涉及隐私问题。
- 偏见讨论: 数据存在时间、地域和主题的偏见。
其他信息
-
数据集管理员: 论文作者
-
许可证信息: 数据集根据CC-BY 4.0许可证分发
-
引用信息:
@incollection{xu2016overview, title={Overview of nlpcc shared task 4: Stance detection in chinese microblogs}, author={Xu, Ruifeng and Zhou, Yu and Wu, Dongyin and Gui, Lin and Du, Jiachen and Xue, Yun}, booktitle={Natural language understanding and intelligent applications}, pages={907--916}, year={2016}, publisher={Springer} }

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
Online Retail II
该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。
github 收录