POI Review Corpus for Sentiment Analysis v1.0
收藏github2022-01-09 更新2024-05-31 收录
下载链接:
https://github.com/Seongbuming/poi-review-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个韩语的POI评论数据集,评论从Kakao Map网站上抓取。每条评论都标有极性——负面或正面。数据集包含100,000条评论,其中50,000条为负面评论,50,000条为正面评论,中性评论被排除。
This is a Korean POI (Point of Interest) review dataset, with reviews scraped from the Kakao Map website. Each review is labeled with a polarity—either negative or positive. The dataset comprises 100,000 reviews, with 50,000 being negative and 50,000 positive; neutral reviews have been excluded.
创建时间:
2021-12-14
原始信息汇总
POI Review Corpus for Sentiment Analysis v1.0 数据集概述
基本信息
- 语言: 韩语
- 来源: Kakao Map
- 数据结构: 包含三个字段:
id,content,labelid: 评论的唯一标识content: 实际的评论内容label: 评论的情感极性(0: 负面, 1: 正面)
数据分布
- 总量: 100,000条评论
- 负面评论: 50,000条(原始评分1~2)
- 正面评论: 50,000条(原始评分4~5)
- 中性评论: 未包含(原始评分3)
示例数据
id content label 139363 한번 가 봤는데 떡 식감이 너무 안좋았음. 떡볶이 쏘스도 별로였음. 단 참치 주먹밥은 먹을만 했음. 그 외에는 그냥 그냥 함 0 155416 싸고 맛있고 최고 분짜도 갠춘 다만 팟타이는 별로 1 148176 가격 감안해도 참 맛없음 0 143040 직원들 불친절함 바쁜건가? 0 71857 9/4 밤에 알바하시는 남자 알바분 엄청 불친절하고 손님이 와도 나와보지도 않아요… 게다가 다음 재료 뭐 넣을지 물어보지도 않고 말 안 하냐는 듯이 쳐다보기만 해서 무서웠어요 0 106816 다 정성이 들어간 느낌 ! 메뉴 모두 성공이에요 1 44078 미니리와 삼겹살 조합도 좋았고 반찬도 정갈하고 껍데기 서비스에 도시락도 좋았구요. 토욜 오후에 갔는데 무엇보다 직 원분 일하는 모습에 감동 제가 어디 사장이면 스카웃 하고 싶다는 ㅎㅎ 1 123452 깔끔하니 맛있는 순대국밥! 반찬도 맛있어요! 1 53617 분위기 좋고, 음식맛 최고였습니다. 직원분들 모두 친절하시고 좋았어요. 1
搜集汇总
数据集介绍

构建方式
POI Review Corpus for Sentiment Analysis v1.0 数据集的构建基于韩国Kakao Map平台上的用户评论。通过爬取该平台上的评论数据,每条评论被标注为积极或消极的情感极性。数据集中排除了中性评论,仅保留了评分为1至2分的消极评论和4至5分的积极评论,共计10万条评论,其中消极和积极评论各占5万条。数据以制表符分隔,包含评论ID、评论内容及情感标签三列。
特点
该数据集的特点在于其专注于韩语环境下的情感分析,数据来源于韩国广泛使用的Kakao Map平台,具有较高的地域性和语言特异性。数据集规模适中,情感标签分布均衡,确保了模型训练的广泛性和准确性。此外,数据集中排除了中性评论,专注于极性的情感分析,有助于提高模型在极端情感分类上的表现。
使用方法
使用POI Review Corpus for Sentiment Analysis v1.0 数据集时,研究者可以通过加载数据集文件,利用评论内容和对应的情感标签进行情感分析模型的训练和测试。数据集的格式简洁明了,便于直接用于机器学习算法的输入。此外,由于数据集已经进行了预处理和清洗,研究者可以专注于模型的构建和优化,而无需过多关注数据的预处理工作。
背景与挑战
背景概述
POI Review Corpus for Sentiment Analysis v1.0 是一个专注于韩语情感分析的数据集,由Kakao Map平台上的用户评论构成。该数据集创建于情感分析技术迅速发展的背景下,旨在为韩语自然语言处理研究提供高质量的标注数据。数据集的核心研究问题在于如何准确识别和分类韩语评论中的情感极性,尤其是针对特定地点(POI)的评论。通过提供10万条标注为正面或负面的评论,该数据集为韩语情感分析模型的训练和评估提供了重要资源,推动了韩语自然语言处理领域的研究进展。
当前挑战
POI Review Corpus for Sentiment Analysis v1.0 在构建和应用过程中面临多重挑战。首先,韩语作为一种高度依赖上下文和语境的复杂语言,其情感表达往往具有模糊性和多样性,这对情感分类模型的准确性提出了较高要求。其次,数据集的构建依赖于从Kakao Map平台爬取的评论数据,原始数据中可能存在噪声和不一致性,例如拼写错误、非标准表达以及混合语言使用,这些因素增加了数据清洗和预处理的难度。此外,数据集中排除了中性评论,可能导致模型在识别中性情感时表现不足。这些挑战不仅影响了数据集的构建质量,也对后续模型的泛化能力提出了更高要求。
常用场景
经典使用场景
POI Review Corpus for Sentiment Analysis v1.0数据集在情感分析领域具有广泛应用,尤其是在韩语文本的情感极性分类任务中。该数据集通过提供来自Kakao Map的用户评论,涵盖了正面和负面情感的标注,为研究者提供了一个标准化的基准数据集。其经典使用场景包括训练和评估情感分析模型,特别是在韩语自然语言处理任务中,帮助研究者理解用户对特定地点的情感倾向。
实际应用
在实际应用中,POI Review Corpus for Sentiment Analysis v1.0数据集被广泛应用于商业智能和用户行为分析领域。例如,餐饮、旅游和零售行业可以利用该数据集分析用户对特定地点的情感反馈,优化服务质量和营销策略。此外,该数据集还可用于开发智能推荐系统,帮助用户根据情感倾向选择更适合的地点或服务。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究者开发了多种韩语情感分析模型,如基于深度学习的LSTM和BERT模型,这些模型在情感分类任务中表现出色。此外,该数据集还被用于跨语言情感分析研究,推动了韩语与其他语言之间的情感分析技术迁移。这些工作不仅提升了韩语情感分析的精度,还为多语言情感分析领域提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



