ChnSentiCorp_htl_all
收藏github2019-07-03 更新2024-05-31 收录
下载链接:
https://github.com/LuciferHe/ChineseNlpCorpus
下载链接
链接失效反馈官方服务:
资源简介:
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
A dataset comprising over 7,000 hotel reviews, including more than 5,000 positive reviews and over 2,000 negative reviews.
创建时间:
2019-07-03
原始信息汇总
情感/观点/评论 倾向性分析
| 数据集 | 数据概览 |
|---|---|
| ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 |
| waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 |
| online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
| weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 |
| simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
中文命名实体识别
| 数据集 | 数据概览 |
|---|---|
| dh_msra | 5 万多条中文命名实体识别标注数据(包括地点、机构、人物) |
推荐系统
| 数据集 | 数据概览 |
|---|---|
| ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
FAQ 问答系统
| 数据集 | 数据概览 |
|---|---|
| 保险知道 | 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
| 安徽电信知道 | 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 |
| 金融知道 | 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 |
| 法律知道 | 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 |
| 联通知道 | 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 |
| 农行知道 | 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 |
| 保险知道 | 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
搜集汇总
数据集介绍

构建方式
ChnSentiCorp_htl_all数据集的构建,旨在为情感分析研究提供酒店评论领域的语料。该数据集的构建通过搜集酒店评论,并对其进行情感标注,划分为正向评论与负向评论,其中包含了7000余条评论数据,正向评论5000余条,负向评论2000余条,为研究者在情感分析领域提供了丰富的文本资源。
特点
该数据集具有以下特点:首先,数据来源均为真实的酒店评论,具有较高的参考价值;其次,数据集规模适中,便于研究者进行有效处理与分析;最后,该数据集的情感倾向性标注明确,有助于研究者开展相关算法的研究与评估。
使用方法
使用ChnSentiCorp_htl_all数据集,研究者首先需要从指定的下载地址获取数据集文件。随后,可以依据数据集的标注信息,利用机器学习或深度学习算法进行情感分类模型的训练与测试。此外,数据集的使用不仅限于模型训练,亦可用于算法性能评估与情感分析领域的学术研究。
背景与挑战
背景概述
ChnSentiCorp_htl_all数据集,是在中文自然语言处理领域的一项重要成果,该数据集由专业的科研人员搜集、整理并发布,旨在推动中文情感分析技术的发展。该数据集创建于近年来,主要研究人员来自国内的自然语言处理研究领域,其核心研究问题聚焦于情感/观点/评论倾向性分析,特别是酒店评论文本的情感分类。该数据集的构建对于提升中文情感分析的准确性和实用性具有重要意义,对相关领域的研究产生了深远的影响。
当前挑战
在研究领域,ChnSentiCorp_htl_all数据集所面临的挑战主要包括如何精确地识别和分类评论中的情感倾向,尤其是在处理具有复杂情感表达的中文文本时。构建过程中遇到的挑战则涉及数据清洗、标注一致性、以及如何确保数据的多样性和代表性。这些挑战对于提升数据集的质量和后续研究的有效性提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,特别是在情感分析研究中,ChnSentiCorp_htl_all数据集因其丰富的酒店评论数据和明确的情感标注而成为经典之选。研究者通常利用该数据集来训练和评估情感分类模型,旨在准确捕捉和预测评论的情感倾向。
解决学术问题
该数据集的构建有效解决了中文情感分析研究中数据稀缺和标注不一致的问题,提供了标准化和高质量的数据资源,极大地推动了相关学术研究的进展。通过该数据集,研究者能够更准确地识别和分析中文文本中的情感倾向,进而提高情感预测模型的性能和可靠性。
衍生相关工作
基于ChnSentiCorp_htl_all数据集,学术界衍生出了一系列相关研究工作,包括但不限于情感分析方法的研究、跨领域情感分析模型的构建以及多模态情感识别等。这些工作进一步拓展了情感分析的应用范围,促进了自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



