ml-hub/flipkart-reviews|电商评论数据集|情感分析数据集
收藏数据集概述
数据集特征
- product_name:产品名称,数据类型为字符串。
- product_price:产品价格,数据类型为浮点数。
- Rate:评分,数据类型为浮点数。
- Review:评论,数据类型为字符串。
- text:文本,数据类型为字符串。
- labels:标签,数据类型为字符串。
- sentiment_code:情感代码,数据类型为整数。
数据集分割
- 训练集:包含30000个样本,总大小为6126932字节。
- 测试集:包含10000个样本,总大小为1885918字节。
数据集大小
- 下载大小:1355637字节。
- 数据集总大小:8012850字节。
配置文件
- 默认配置:包含训练集和测试集的数据文件路径。
- 训练集路径:
data/train-*
- 测试集路径:
data/test-*
- 训练集路径:

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
stochastic/random_streetview_images_pano_v0.0.2
随机街景图像数据集是从randomstreetview.com抓取的带有标签的全景图像。每张图像显示一个可以通过Google Street View访问的位置,这些图像被大致组合以提供单个位置的约360度视角。该数据集的设计目的是仅基于其视觉内容对图像进行地理定位。数据集包含约10,000张图像,涵盖了55个国家的约175张照片,主要集中在欧洲和亚洲。
hugging_face 收录