ChnSentiCorp_htl_all
收藏github2019-07-27 更新2024-05-31 收录
下载链接:
https://github.com/yuanmingchen/ChineseNlpCorpus
下载链接
链接失效反馈官方服务:
资源简介:
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
A dataset comprising over 7,000 hotel reviews, including more than 5,000 positive reviews and over 2,000 negative reviews.
创建时间:
2019-07-26
原始信息汇总
情感/观点/评论 倾向性分析
| 数据集 | 数据概览 |
|---|---|
| ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 |
| waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 |
| online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
| weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 |
| simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
中文命名实体识别
| 数据集 | 数据概览 |
|---|---|
| dh_msra | 5 万多条中文命名实体识别标注数据(包括地点、机构、人物) |
推荐系统
| 数据集 | 数据概览 |
|---|---|
| ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 |
| dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
| yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 |
| yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
FAQ 问答系统
| 数据集 | 数据概览 |
|---|---|
| 保险知道 | 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
| 安徽电信知道 | 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 |
| 金融知道 | 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 |
| 法律知道 | 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 |
| 联通知道 | 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 |
| 农行知道 | 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 |
| 保险知道 | 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 |
搜集汇总
数据集介绍

构建方式
ChnSentiCorp_htl_all数据集的构建,是基于对酒店评论的情感倾向性分析的需求,搜集并整理了7000余条酒店评论数据,其中包含了5000多条正向评论与2000多条负向评论。这些评论被精心筛选并标注,旨在为情感分析研究提供高质量的数据基础。
特点
该数据集的特点在于,其评论内容均为中文,紧贴酒店服务业的实际情况,为研究者提供了真实场景下的情感分析样本。同时,数据集的正负向评论分布均衡,有利于模型在不平衡数据上的性能评估与优化。
使用方法
使用ChnSentiCorp_htl_all数据集时,用户需遵循数据使用协议,确保数据的合法合规使用。数据集可通过提供的下载链接获取,并建议使用Python等编程语言进行数据处理与分析,以便高效地从数据中提取有价值的信息。
背景与挑战
背景概述
ChnSentiCorp_htl_all数据集,作为一个专注于情感分析的语料库,其创建旨在推动中文自然语言处理领域的发展。该数据集由7000多条酒店评论组成,其中包含了5000多条正向评论和2000多条负向评论。它的构建时间是不可考的,但根据其使用频率和引用情况,可以推断它对中文情感分析领域产生了显著的影响,为研究人员提供了宝贵的资源,以便他们能够更好地理解和处理中文文本的情感倾向。
当前挑战
该数据集在研究领域中面临的挑战主要涉及两个方面:一是情感分析本身的复杂性,特别是在中文语境中,由于表达情感的词汇和句式繁多,且存在大量的歧义和隐含情感,使得情感分类的准确性和细粒度成为研究难点;二是数据集构建过程中的挑战,包括评论数据的收集、清洗和标注,这些步骤需要耗费大量的人力和时间,同时确保标注质量的一致性和准确性也是一个不容忽视的问题。
常用场景
经典使用场景
ChnSentiCorp_htl_all数据集作为情感分析领域的重要资源,其经典使用场景主要集中于中文文本的情感倾向性分析。通过该数据集中酒店评论的正负向标注,研究者能够训练和测试机器学习模型,以准确识别和预测文本的情感极性,进而为情感分析相关任务提供强有力的数据支撑。
解决学术问题
该数据集解决了中文情感分析研究中缺乏大规模标注数据的问题,为学术研究提供了可靠的数据基础。它使得研究者能够基于此数据集进行模型的训练与评估,有效提高了中文文本情感分析模型的准确性和泛化能力,对推动该领域的发展具有重要的学术价值。
衍生相关工作
基于ChnSentiCorp_htl_all数据集,学术界已衍生出多项相关工作,包括但不限于情感分析方法的研究、跨领域情感分析模型的构建以及情感分析在个性化推荐系统中的应用等,这些研究进一步拓展了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



