rohith2812/STANFORD-SENTIMENT-TREEBANK
收藏Hugging Face2024-07-14 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/rohith2812/STANFORD-SENTIMENT-TREEBANK
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含了一系列简短的电影评论,每条评论以括号包围,包含一个从0到4的评分和评论文本。评分越高表示评论越正面。评论格式一致,评分位于开头,便于识别情感倾向。评论简洁,聚焦于电影的关键方面,涵盖了多种类型的电影,并展示了多样化的观点。
The dataset contains a collection of short movie reviews, each enclosed in parentheses and consisting of a numerical rating followed by the review text. The rating ranges from 0 to 4, with higher numbers indicating a more positive review. The reviews follow a consistent format with the rating at the beginning, making it easy to identify the sentiment of each review. The reviews are generally concise, focusing on key aspects of the movie, covering a wide range of movies, and suggesting a diversity of opinions.
提供机构:
rohith2812
原始信息汇总
数据集概述
数据内容
- 类型: 短电影评论
- 格式: 每个评论包含在括号内,由数值评分和评论文本组成。
- 评分范围: 0到4,数值越高表示评论越正面。
数据特点
- 格式一致性: 评论格式一致,评分位于评论开头,便于识别评论情感。
- 简洁性: 评论通常简洁,聚焦于电影的关键方面。
- 多样性: 涵盖多种类型的电影,包括戏剧、喜剧、纪录片和动作片。
- 观点多样性: 评分显示了电影的多样观点。
数据处理
- 结构: 评论文本可能使用嵌套括号表示某种句法解析结构。
- 转换: 需要将评论提取为纯文本格式,并加载到DataFrame中以进行情感分析。
代码示例
- 提取与转换: 使用正则表达式从文件中提取评分和评论文本,并将其加载到DataFrame中。
- 清理: 进一步清理文本,去除标点符号和数字,生成干净的数据集。



