豆瓣电影短评论数据集
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-11730.html
下载链接
链接失效反馈官方服务:
资源简介:
Douban Movie is a Chinese website that allows Internet users to share their comments and viewpoints about movies. Users are able to post short or long comments on movies and give them marks. This dataset contains more than 2 million short comments of 28 movies in Douban Movie website. It can be used on text classification, text clustering, sentiment analysis, semantic web construction and some other fields that relate to web mining or NLP (of Chinese lol). ID the ID of the comment (start from 0) MovieNameEN the English name of the movie MovieNameCN the Chinese name of the movie Crawl_Date the date that the data are crawled Number the number of the comment Username the username of the account Date the date that the comment posted Star the star that users give to the movie (from 1 to 5, 5 grades) Comment the content of the comment Like the count of "like" on the comment
豆瓣电影(Douban Movie)是一家供互联网用户分享电影评论与观点的中文网站。用户可针对影片发布短评或长评,并为其评分。本数据集包含豆瓣电影平台上28部影片的超200万条短评,可应用于文本分类、文本聚类、情感分析、语义网络构建以及其他与网络挖掘或自然语言处理(Natural Language Processing,简称NLP)相关的研究领域(本数据集面向中文语料)。各字段含义如下:
ID:评论的唯一标识,编号从0开始
MovieNameEN:影片的英文名称
MovieNameCN:影片的中文名称
Crawl_Date:数据爬取日期
Number:评论序号
Username:评论发布账号的用户名
Date:评论发布日期
Star:用户为影片给出的评分,共5个等级,取值范围为1至5
Comment:评论内容
Like:该评论获得的点赞数
提供机构:
帕依提提
搜集汇总
数据集介绍

背景与挑战
背景概述
豆瓣电影短评论数据集包含超过200万条来自豆瓣电影网站的短评论,涉及28部电影,适用于文本分类、情感分析等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



