ChnSentiCorp_htl_all
收藏github2020-07-23 更新2024-05-31 收录
下载链接:
https://github.com/ThunderstormDeam/ChineseNlpCorpus
下载链接
链接失效反馈官方服务:
资源简介:
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
A dataset comprising over 7,000 hotel reviews, including more than 5,000 positive reviews and over 2,000 negative reviews.
创建时间:
2020-07-23
原始信息汇总
情感/观点/评论 倾向性分析
| 数据集 | 数据概览 |
|---|---|
| ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 |
| waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 |
| online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
| weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 |
| simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
中文命名实体识别
| 数据集 | 数据概览 |
|---|---|
| dh_msra | 5 万多条中文命名实体识别标注数据(包括地点、机构、人物) |
推荐系统
| 数据集 | 数据概览 |
|---|---|
| ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
FAQ 问答系统
| 数据集 | 数据概览 |
|---|---|
| 保险知道 | 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
| 安徽电信知道 | 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 |
| 金融知道 | 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 |
| 法律知道 | 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 |
| 联通知道 | 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 |
| 农行知道 | 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 |
| 保险知道 | 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
搜集汇总
数据集介绍

构建方式
ChnSentiCorp_htl_all数据集的构建基于对酒店评论的广泛收集与整理。该数据集包含了7000多条酒店评论,其中5000多条为正向评论,2000多条为负向评论。这些数据来源于真实的用户反馈,确保了数据的真实性和多样性。通过对这些评论的细致分类和标注,数据集为情感分析研究提供了坚实的基础。
特点
ChnSentiCorp_htl_all数据集的特点在于其评论数据的丰富性和情感标签的准确性。数据集不仅涵盖了大量的用户评论,还精确地标注了每条评论的情感倾向,包括正向和负向。这种细致的情感分类使得该数据集成为进行情感分析和机器学习模型训练的宝贵资源。
使用方法
ChnSentiCorp_htl_all数据集的使用方法主要包括数据预处理、模型训练和性能评估。用户首先需要对原始评论数据进行清洗和格式化处理,然后利用这些数据训练情感分析模型。通过对比模型预测结果与数据集中标注的情感标签,可以评估模型的准确性和鲁棒性。此外,该数据集也适用于探索性数据分析,以深入理解用户评论的情感分布和语言特征。
背景与挑战
背景概述
ChnSentiCorp_htl_all数据集是中文自然语言处理领域中的一个重要资源,专注于情感倾向性分析。该数据集由中文NLP语料库项目组创建,旨在促进中文情感分析技术的发展。数据集包含7000多条酒店评论,其中5000多条为正向评论,2000多条为负向评论,为研究者提供了丰富的情感分析素材。自发布以来,该数据集在学术界和工业界均产生了广泛影响,推动了中文情感分析模型的训练与评估。
当前挑战
ChnSentiCorp_htl_all数据集在解决中文情感分析问题时面临多重挑战。首先,中文语言的复杂性和多样性使得情感表达的识别与分类难度较高,尤其是在评论中常出现的情感模糊或讽刺性表达。其次,数据集的规模相对有限,可能限制了深度学习模型的泛化能力。此外,数据标注的一致性和准确性也是构建过程中的主要挑战,尤其是在处理主观性较强的情感标签时,如何确保标注质量成为关键问题。
常用场景
经典使用场景
ChnSentiCorp_htl_all数据集在情感分析领域具有重要应用,尤其是在酒店评论的情感倾向性分析中。该数据集包含了7000多条酒店评论,其中5000多条为正向评论,2000多条为负向评论。研究者通常利用该数据集训练和测试情感分类模型,以识别和分类用户评论中的情感倾向。通过该数据集,研究者能够深入理解中文语境下的情感表达,并提升情感分析模型的准确性和鲁棒性。
解决学术问题
ChnSentiCorp_htl_all数据集为中文情感分析研究提供了丰富的语料资源,解决了情感分类模型在中文语境下的数据稀缺问题。通过该数据集,研究者能够探索情感分析中的关键问题,如情感词汇的识别、情感极性的判断以及情感强度的量化。此外,该数据集还为跨语言情感分析研究提供了对比基础,推动了情感分析技术在中文领域的应用与发展。
衍生相关工作
基于ChnSentiCorp_htl_all数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集开发了基于深度学习的情感分类模型,显著提升了情感分析的准确率。此外,该数据集还被用于情感分析与其他自然语言处理任务的结合研究,如情感分析与文本摘要、情感分析与推荐系统的结合。这些研究不仅推动了情感分析技术的发展,还为中文自然语言处理领域提供了新的研究方向和应用场景。
以上内容由遇见数据集搜集并总结生成



