Sentiment140|情感分析数据集
收藏TWITTER-SENTIMENTAL-ANAYLSIS
Overview
该项目旨在使用Sentiment140数据集将推文分类为正面或负面情绪。数据集包含1,600,000条通过Twitter API提取的推文。我们通过数据可视化来理解情绪分布,并应用机器学习技术构建分类模型。
Dataset
Sentiment140数据集包含以下字段:
target
: 推文的极性(0 = 负面 😞,1 = 正面 😃)ids
: 推文的唯一IDdate
: 推文的日期flag
: 查询(如果没有查询,则为NO_QUERY)user
: 推特用户的名称text
: 推文的内容
Dependencies
运行此项目需要以下Python包: sh import pandas as pd import matplotlib.pyplot as plt import nltk from nltk.corpus import stopwords from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import BernoulliNB import tweepy import warnings
Exploratory Data Analysis
我们首先加载并探索数据集,以理解情绪分布和其他特征。
Data Preprocessing
我们对数据进行清洗和预处理,以准备模型训练。
Model Training and Evaluation
我们训练一个Bernoulli Naive Bayes模型并评估其性能。
Results
我们使用条形图和饼图可视化结果。
Conclusion
我们的模型在将推文分类为正面和负面情绪方面取得了良好的准确性。通过探索其他机器学习算法和微调预处理步骤,可以进一步改进。

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录