Clickstream, Tweets, Customers, Exam-Scores, Funny-Names, weather, nyc311
收藏github2019-10-31 更新2024-05-31 收录
下载链接:
https://github.com/wassimoo/datasets
下载链接
链接失效反馈官方服务:
资源简介:
此仓库包含我在教学课程中使用的样本数据集。每个文件夹包含一个独立的数据集。其中包括:Clickstream数据集,包含3天的IIS网络日志,记录了匿名用户在电子商务网站上的产品浏览活动;Tweets数据集,包含6个月关于名为Fudgemart公司的模拟推文,用于情感分析;Customers数据集,包含在电子商务网站上完成订单的客户的基本信息和调查数据;Exam-Scores数据集,包含样本考试成绩,记录了学生的考试情况;Funny-Names数据集,包含虚构的幽默人名,用于数据集示例;weather数据集,从天气地下获取的Syracuse, NY的每日天气数据,从1998年至今;nyc311数据集,包含2016年愚人节纽约市311服务请求的数据。
This repository houses sample datasets utilized in my teaching courses. Each folder contains an independent dataset, as detailed below:
1. Clickstream Dataset: Contains 3 days of IIS web logs that record the product browsing activities of anonymous users on an e-commerce website.
2. Tweets Dataset: Contains 6 months of simulated tweets pertaining to a company named Fudgemart, designed for sentiment analysis applications.
3. Customers Dataset: Contains basic demographic information and survey data of customers who have completed orders on the e-commerce platform.
4. Exam-Scores Dataset: Contains sample exam scores that document students' exam performance and relevant details.
5. Funny-Names Dataset: Contains fictional humorous given names for use as dataset demonstration examples.
6. Weather Dataset: Contains daily weather data for Syracuse, NY, obtained from Weather Underground, spanning from 1998 to the present day.
7. nyc311 Dataset: Contains data on New York City 311 service requests submitted on April Fools' Day 2016.
创建时间:
2018-11-27
原始信息汇总
数据集概述
Clickstream
- 描述: 包含来自一个示例电子商务网站(nopCommerce)的3天IIS网络日志。
- 内容: 匿名用户浏览网站产品的活动数据。
- 特殊说明: IP地址已替换为其他有效IP,并包含一个IP到位置的CSV文件。
Tweets
- 描述: 包含关于名为Fudgemart的公司6个月的模拟推文。
- 用途: 可用于情感分析。
- 格式: 包含两个生成的200条推文数据集,一个为JSON格式,另一个为管道分隔格式。
- 附加工具: 提供一个Python 3脚本
simtweet.py,用于生成额外的推文。
Customers
- 描述: 包含在电子商务网站上下订单的客户的基本数据,以及一些客户可能填写的虚构调查。
- 客户特征: 包括姓名、电子邮件、性别、最后使用的IP地址、城市、州、订单总数、购买商品的总金额和成为客户的月数。
- 调查特征: 包括电子邮件、Twitter用户名、婚姻状况、家庭收入、是否拥有房屋、最高学历和最喜欢的部门。
Exam-Scores
- 描述: 包含样本考试成绩的表格。
- 特征: 包括班级部分、考试版本、完成时间、是否制作了自己的学习指南、是否完成了考试准备作业、是否在小组中学习、学生得分、百分比和字母等级。
Funny-Names
- 描述: 包含在需要人名来完成数据集示例时常用的虚构幽默人名列表。
Weather
- 描述: 从Weather Underground抓取的纽约州锡拉丘兹市的每日天气数据,时间范围从1998年至今。
NYC311
- 描述: 包含2016年愚人节纽约市311服务请求的数据。
搜集汇总
数据集介绍

构建方式
Clickstream数据集由3天的IIS网络日志构成,源自一个示例电子商务网站(nopCommerce)。数据记录了匿名用户在网站上的产品浏览活动,并对原始IP地址进行了匿名化处理,同时提供了IP地址与地理位置的映射文件。Tweets数据集包含6个月关于Fudgemart公司的模拟推文,可用于情感分析。Customers数据集搜集了电子商务网站客户的基本信息及部分客户填写的调查问卷数据。Exam-Scores数据集是一组学生的考试成绩表格,包含考试版本、完成时间、备考方式等特征。Funny-Names数据集提供了一系列虚构的幽默人名,用于数据集示例。weather数据集是自1998年以来,纽约雪城每日天气的抓取数据。nyc311数据集记录了2016年愚人节当天纽约市311服务请求的情况。
特点
Clickstream数据集特色在于包含用户行为日志与地理位置信息,有利于分析用户行为模式。Tweets数据集模拟了真实的社交媒体环境,适用于情感分析研究。Customers数据集通过客户信息和调查数据,为用户画像和行为分析提供了丰富的资源。Exam-Scores数据集为教育评估和学生学习行为分析提供了量化数据。Funny-Names数据集以其趣味性补充了数据集示例中的人名需求。weather数据集提供了长时间序列的天气数据,适用于气候研究。nyc311数据集则以特定日期的服务请求为特色,适合用于事件分析和响应系统研究。
使用方法
使用Clickstream数据集,研究者可以分析用户行为并进行地理位置关联。Tweets数据集可通过simtweet.py脚本扩展推文数据,便于实时场景分析。Customers数据集可用于客户关系管理和市场细分。Exam-Scores数据集可用于评估学生的学习成效及备考策略。Funny-Names数据集可用于数据示例中的填充。weather数据集适合用于时间序列分析和气候模式研究。nyc311数据集可用于研究市政服务请求的分布和响应效率。
背景与挑战
背景概述
Clickstream数据集源于电子商务网站nopCommerce的三天IIS网络日志,旨在研究用户在网站上的匿名浏览行为。该数据集的构建始于教学需求,由研究人员用于课程中,以提供实际的数据分析案例。数据集包含了有效的IP地址替代,以及IP地址到位置的CSV文件,为电子商务用户行为分析提供了基础数据。Tweets数据集则是关于一家名为Fudgemart的公司的六个月模拟推文,用于情感分析研究。Customers数据集涉及电子商务网站客户的基本信息及问卷调查数据,为用户画像和消费行为分析提供了素材。Exam-Scores数据集记录了学生的考试成绩和相关背景信息,适用于教育评估和学生学习策略分析。Funny-Names数据集提供了虚构的幽默人名,常用于数据集示例。weather数据集包含了纽约州雪城自1998年至今的每日天气数据,适用于气候研究和城市环境分析。nyc311数据集则记录了2016年愚人节当天纽约市的311服务请求,可用于公共服务和市民需求的研究。
当前挑战
Clickstream数据集的挑战在于如何准确地将匿名用户行为与实际地理位置关联,以及如何处理网络爬虫和机器人的数据。Tweets数据集的挑战在于模拟推文的真实性和情感分析的有效性。Customers数据集的挑战是如何处理和整合客户特征与问卷调查数据,以获得深入的消费行为洞察。Exam-Scores数据集面临的挑战是分析学生学习习惯与考试成绩之间的关系,并从中提取有效的教育策略。weather数据集的挑战在于处理长时间序列的天气数据,以及如何将其应用于具体的气候研究。nyc311数据集的挑战是如何从特殊日期的服务请求中提取有用的公共服务信息,并分析市民需求模式。
常用场景
经典使用场景
在电子商务网站用户行为分析领域,Clickstream数据集因其详尽的用户浏览行为记录而成为经典。该数据集记录了 nopCommerce 网站的三天IIS日志,包含匿名用户的产品浏览活动,并提供了IP地址定位信息,为用户行为模式的研究提供了坚实基础。
衍生相关工作
基于Clickstream数据集,研究者衍生出诸多相关工作,如用户行为模式识别、用户购买意图预测等领域的探索。这些研究进一步扩展了数据挖掘和机器学习在电子商务领域的应用边界。
数据集最近研究
最新研究方向
在互联网行为分析领域,Clickstream数据集近期研究方向聚焦于用户行为模式识别与预测。研究人员利用该数据集,结合机器学习技术,深入挖掘用户在电子商务网站上的浏览行为特征,以期为个性化推荐系统提供强有力的数据支撑。此外,Tweets数据集被广泛应用于情感分析领域,研究者通过对Fudgemart公司相关推文的分析,探索了公司声誉与用户情感之间的关系,进而为企业提供有效的营销策略。在客户数据分析领域,Customers数据集助力研究者在用户画像构建、消费行为预测等方面取得新进展。
以上内容由遇见数据集搜集并总结生成



