Sentiment140 Dataset|情感分析数据集|社交媒体数据集
收藏数据集概述
数据集名称
Stanfords Sentiment140 Dataset
数据集规模
包含1.6 million 已标注的推文。
数据处理
- 数据被战略性地缩减至原大小的1/4。
- 使用Word Tokenizer进行细致的数据清洗,移除了HTML解码、URL链接、提及、话题标签和多余的空格。
数据分析方法
- 应用Wordcloud进行文本可视化,展示正面和负面推文内容。
- 采用Zipfs Law等统计方法分析推文令牌的分布,研究负面和正面推文中前50个令牌的频率和重要性。
- 计算概率统计量如posrate,并展示累积分布函数(CDF)图,比较正面和负面推文的分布。
模型开发与评估
- 使用TextBlob作为情感分析的基准。
- 结合CountVectorizer和TF-IDF进行特征提取,应用Logistic Regression, Ridge Classifier, Stochastic Gradient Descent, Multinomial NB, 和 Bernoulli NB模型进行情感分类,使用unigrams, bigrams, 和 trigrams。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录