five

方面词提取与方面词情感分析中文数据集

收藏
国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64ef83a1bb16e0591d024af8&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
中文领域的方面词提取与方面级情感分析数据集非常匮乏。本课题针对该问题,以数据一为基础构造方面词提取与方面词情感分析中文数据集,为训练语境窗口自注意力神经网络和方面词情感分析模型提供实验数据支撑。其中包括3148条评论语句,训练集有2518条,测试集有630条。京东购物评分(满分5分)在4分及以上的评论占60%,3分的占15%,2分及以下的占25%。数据集中共有方面词6841个,用户表达正面情感的有4564个,表达中立情感与负面情感的分别为563、1324个。

There is a severe shortage of datasets for aspect term extraction and aspect-level sentiment analysis in the Chinese domain. This study addresses this issue by constructing a Chinese dataset for aspect term extraction and aspect-level sentiment analysis based on Data 1, which provides experimental data support for training context-window self-attention neural networks and aspect-level sentiment analysis models. The dataset contains a total of 3148 comment sentences, with 2518 samples in the training set and 630 samples in the test set. Comments with a JD.com shopping rating of 4 or higher (full score 5) account for 60% of the dataset, those with a rating of 3 account for 15%, and those with a rating of 2 or lower account for 25%. There are a total of 6841 aspect terms in the dataset, among which 4564 express positive sentiment, 563 express neutral sentiment, and 1324 express negative sentiment.
提供机构:
北京大学
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专注于中文自然语言处理任务的数据集,主要用于方面词提取和方面词情感分析。它包含3148条评论语句,分为2518条训练数据和630条测试数据,覆盖正面、中立和负面情感标注,其中方面词总数达6841个,情感分布以正面为主。数据集旨在弥补中文领域相关资源的不足,为训练语境窗口自注意力神经网络和情感分析模型提供实验支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务