five

BostonHousing.csv

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/reisanar/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。数据集共有506个案例,每个案例包含14个属性,如犯罪率、土地使用情况、空气污染指数等,用于研究房地产价格和清洁空气需求之间的关系。

This dataset comprises information on housing in the Boston area of Massachusetts, collected by the U.S. Census Bureau. It includes 506 cases, each with 14 attributes such as crime rate, land use, air pollution index, etc., aimed at studying the relationship between real estate prices and the demand for clean air.
创建时间:
2017-06-23
原始信息汇总

数据集概述

1. BostonHousing.csv

  • 来源: 美国人口普查局关于波士顿马萨诸塞州地区住房的信息。
  • 原始数据: Harrison, D. 和 Rubinfeld, D.L. 1978年的研究。
  • 案例数量: 506
  • 属性数量: 14
  • 属性描述:
    • CRIM: 犯罪率
    • ZN: 住宅用地超过25,000平方英尺的百分比
    • INDUS: 非零售业务占地的百分比
    • CHAS: 查尔斯河边界(1=边界,0=否则)
    • NOX: 一氧化氮浓度(百万分之十)
    • RM: 每个住宅的平均房间数
    • AGE: 1940年之前建造的自住单元的百分比
    • DIS: 到五个波士顿就业中心的加权距离
    • RAD: 径向高速公路的可达性指数
    • TAX: 每10,000美元的全值财产税率
    • PTRATIO: 城镇的学生与教师比率
    • LSTAT: 人口中较低地位的百分比
    • MEDV: 自住房屋的中位数价值(以1000美元计)
    • CAT.MEDV: 自住房屋的中位数价值是否高于$30,000(1=是,0=否)

2. Cereals.csv

  • 来源: DATA ANALYSIS FOR STUDENT LEARNING (DASL)
  • 属性数量: 16
  • 属性描述:
    • Name: 谷物名称
    • mfr: 制造商(A=美国家庭食品产品;G=通用磨坊;K=凯洛格;N=纳贝斯克;P=邮政;Q=贵格燕麦;R=拉尔斯顿普瑞纳)
    • type: 冷或热
    • calories: 每份卡路里
    • protein: 蛋白质克数
    • fat: 脂肪克数
    • sodium: 钠毫克数
    • fiber: 膳食纤维克数
    • carbo: 复合碳水化合物克数
    • sugars: 糖克数
    • potass: 钾毫克数
    • vitamins: 维生素和矿物质(0, 25, 或100,表示FDA推荐典型百分比)
    • shelf: 展示架(1, 2, 或3,从地面计数)
    • weight: 每份重量(盎司)
    • cups: 每份杯数
    • rating: 消费者报告评定的谷物评分

3. EastWestAirlinesCluster.csv

  • 目的: 识别客户细分。
  • 来源: 基于真实业务数据。
  • 属性数量: 13
  • 属性描述:
    • ID#: 唯一ID
    • Balance: 奖励旅行合格里程数
    • Qual_miles: 获得Topflight状态的合格里程数
    • cc1_miles: 过去12个月内使用常旅客信用卡获得的里程数
    • cc2_miles: 过去12个月内使用奖励信用卡获得的里程数
    • cc3_miles: 过去12个月内使用小型企业信用卡获得的里程数
    • Bonus_miles: 过去12个月内通过非飞行奖励交易获得的里程数
    • Bonus_trans: 过去12个月内非飞行奖励交易次数
    • Flight_miles_12mo: 过去12个月内飞行里程数
    • Flight_trans_12: 过去12个月内飞行交易次数
    • Days_since_enroll: 自注册日期以来的天数
    • Award?: 上次奖励的虚拟变量(1=非空,0=空)

4. ToyotaCorolla.csv

  • 属性数量: 34
  • 属性描述:
    • Id: 记录ID
    • Model: 模型描述
    • Price: 欧元报价价格
    • Age_08_04: 2004年8月的年龄(月)
    • Mfg_Month: 制造月份(1-12)
    • Mfg_Year: 制造年份
    • KM: 里程表上的累计公里数
    • Fuel_Type: 燃料类型(汽油、柴油、CNG)
    • HP: 马力
    • Met_Color: 金属颜色(是=1,否=0)
    • Color: 颜色(蓝色、红色、灰色、银色、黑色等)
    • Automatic: 自动(是=1,否=0)
    • CC: 气缸体积(立方厘米)
    • Doors: 门数
    • Cylinders: 气缸数
    • Gears: 档位数
    • Quarterly_Tax: 季度道路税(欧元)
    • Weight: 重量(公斤)
    • Mfr_Guarantee: 制造商保证期内(是=1,否=0)
    • BOVAG_Guarantee: BOVAG保证(是=1,否=0)
    • Guarantee_Period: 保证期(月)
    • ABS: 防锁死刹车系统(是=1,否=0)
    • Airbag_1: 驾驶员安全气囊(是=1,否=0)
    • Airbag_2: 乘客安全气囊(是=1,否=0)
    • Airco: 空调(是=1,否=0)
    • Automatic_airco: 自动空调(是=1,否=0)
    • Boardcomputer: 车载电脑(是=1,否=0)
    • CD_Player: CD播放器(是=1,否=0)
    • Central_Lock: 中央锁(是=1,否=0)
    • Powered_Windows: 电动窗户(是=1,否=0)
    • Power_Steering: 动力转向(是=1,否=0)
    • Radio: 收音机(是=1,否=0)
    • Mistlamps: 雾灯(是=1,否=0)
    • Sport_Model: 运动模型(是=1,否=0)
    • Backseat_Divider: 后座分隔器(是=1,否=0)
    • Metallic_Rim: 金属轮圈(是=1,否=0)
    • Radio_cassette: 收音机磁带(是=1,否=0)
    • Parking_Assistant: 停车辅助系统(是=1,否=0)
    • Tow_Bar: 拖车杆(是=1,否=0)

5. Auto.csv

  • 属性数量: 9
  • 属性描述:
    • mpg: 每加仑英里数
    • cylinders: 气缸数(4到8)
    • displacement: 发动机排量(立方英寸)
    • horsepower: 发动机马力
    • weight: 车辆重量(磅)
    • acceleration: 从0加速到60英里/小时的时间(秒)
    • year: 模型年份(模100)
    • origin: 车辆来源(1. 美国,2. 欧洲,3. 日本)
    • name: 车辆名称

6. allbacks.csv

  • 属性数量: 4
  • 属性描述:
    • volume: 书本体积(立方厘米)
    • area: 硬封面面积(平方厘米)
    • weight: 书本重量(克)
    • cover: 封面类型(hb=硬封面,pb=软封面)

7. UniversalBank.csv

  • 属性数量: 14
  • 属性描述:
    • ID: 客户ID
    • Age: 客户年龄(完整年份)
    • Experience: 专业经验年数
    • Income: 年度收入($000)
    • ZIPCode: 家庭地址邮政编码
    • Family: 家庭规模
    • CCAvg: 每月平均信用卡支出($000)
    • Education: 教育水平(1: 本科;2: 研究生;3: 高级/专业)
    • Mortgage: 房屋抵押价值($000)
    • Personal Loan: 客户是否接受上次个人贷款活动
    • Securities Account: 客户是否有证券账户
    • CD Account: 客户是否有存款证明(CD)账户
    • Online: 客户是否使用网上银行设施
    • CreditCard: 客户是否使用UniversalBank发行的信用卡

8. Utilities.csv

  • 属性数量: 9
  • 属性描述:
    • Company: 公司名称
    • Fixed_charge: 固定费用覆盖率(收入/债务)
    • RoR: 资本回报率百分比
    • Cost: 每千瓦容量的成本
    • Load_factor: 年度负荷因子
    • Demand_growth: 需求增长率
    • Sales: 销售(每年千瓦时使用量)
    • Nuclear: 核能百分比
    • Fuel_Cost: 燃料成本(每千瓦时美分)

9. WestRoxbury.csv

  • 属性数量: 16
  • 属性描述:
    • TOTAL VALUE: 财产总评估价值(千美元)
    • TAX: 基于总评估价值乘以税率的税单金额
    • LOT SQFT: 地块总面积(平方英尺)
    • YR BUILT: 建筑年份
    • GROSS AREA: 总建筑面积
    • LIVING AREA: 住宅总居住面积(平方英尺)
    • FLOORS: 楼层数
    • ROOMS: 总房间数
    • BEDROOMS: 总卧室数
    • FULL BATH: 全浴室数
    • HALF BATH: 半浴室数
    • KITCHEN: 厨房数
    • FIREPLACE: 壁炉数
    • REMODEL: 房屋翻新年份(最近/旧/无)

10. WorldCupMatches.csv

  • 属性数量: 19
  • 属性描述:
    • Year: 比赛年份
    • Datetime: 比赛日期和时间
    • Stage: 比赛阶段
    • Stadium: 体育场名称
    • City: 城市名称
    • Home Team Name: 主队国家名称
    • Home Team Goals: 主队总进球数
    • Away Team Goals: 客队总进球数
    • Away Team Name: 客队国家名称
    • Win conditions: 特殊胜利条件(如有)
    • Attendance: 体育场总观众人数
    • Half-time Home Goals: 半场主队进球数
    • Half-time Away Goals: 半场客队进球数
    • Referee: 主裁判名称
    • Assistant 1: 第一助理裁判(边裁)名称
    • Assistant 2: 第二助理裁判(边裁)名称
    • RoundID: 回合唯一ID
    • MatchID: 比赛唯一ID
    • Home Team Initials: 主队国家三字母缩写
    • Away Team Initials: 客队国家三字母缩写

11. NBAchampionsdata.csv 和 NBArunnerupsdata.csv

  • 属性数量: 20
  • 属性描述:
    • Year: 比赛年份
    • Team: 球队名称
    • Game: 七局四胜系列赛中的比赛
    • Win: 胜负布尔值(胜=1)
    • Home: 主场或客场布尔值(主场=1)
    • MP: 分钟数
    • FG: 投篮得分(包括2分和3分投篮)
    • FGA: 投篮尝试(包括2分和3分投篮尝试)
    • FGP: 投篮百分比;公式为FG / FGA
    • TP: 控球时间(分钟)
    • TPA: 3分投篮尝试
    • TPP: 3分投篮百分比
    • FT: 罚球
    • FTA: 罚球尝试
    • FTP: 罚球百分比
    • ORB: 进攻篮板
    • DRB: 防守篮板
    • TRB: 总篮板
    • AST: 助攻
    • STL: 抢断
    • BLK: 盖帽
    • TOV: 失误
    • PF: 个人犯规
    • PTS: 得分

12. IMDB_movies.csv

  • 属性数量: 12
  • 属性描述:
    • Rank: IMDb排名
    • Title: 电影名称
    • Genre: 电影类别
    • Description: 剧情描述
    • Director: 导演名称
    • Actors: 演员名称
    • Year: 发行年份
    • Runtime (Minutes): 时长(分钟)
    • Rating: IMDb评分
    • Votes: 投票数
    • Revenue (Millions): 总票房(百万美元)
    • Metascore: Metacritic评分

13. netflixShows.csv

  • 属性数量: 7
  • 属性描述:
    • title: 节目名称
    • rating: TV家长指南评级
    • ratingLevel: 评级内容描述
    • ratingDescription: 评级内容描述的数值关联(10到110)
    • release year: 首映年份
    • user rating score: 平均评分
    • user rating size: 评分样本大小

14. harvardMIT.csv

  • 属性数量: 22
  • 属性描述:
    • Institution: 哈佛X或MITx
    • Course Number: 课程编号标识
    • Launch Date: 发布日期
    • Course Title: 课程名称
    • Instructors: 讲师名称
    • Course Subject: 课程名称
    • Year: 年份1-4
    • Honor Code Certificates: 荣誉代码证书描述
    • Participants (Course Content Accessed): 访问课程内容的总参与者数
    • Audited (> 50% Course Content Accessed): 访问超过50%课程内容的参与者数
    • Certified: 认证完成数
    • % Audited: 审计百分比
    • % Certified: 认证百分比
    • % Certified of > 50% Course Content Accessed: 访问超过50%课程内容的认证百分比
    • % Played Video: 播放视频的百分比
    • % Posted in Forum: 在论坛发帖的百分比
    • % Grade Higher Than Zero: 最终成绩高于零的百分比
    • Total Course Hours (Thousands): 参与总课程小时数(千)
    • Median Hours for Certification: 完成课程至认证点的中间小时数
    • Median Age: 参与者平均年龄
    • % Male: 男性参与者百分比
    • % Female: 女性参与者百分比
    • % Bachelors Degree or Higher: 拥有学士学位或更高学位的参与者百分比

15. starbucks.csv

  • 属性数量: 13
  • 属性描述:
    • Beverage_category: 饮料类型
    • Beverage: 饮料名称
    • Beverage_prep: 饮料准备,如豆奶、2%牛奶、大杯、短非脂肪牛奶、单份、双份
    • Calories: 每份卡路里数
    • Total Fat (g): 每份总脂肪克数
    • Trans Fat (g): 每份反式脂肪克数
    • Saturated Fat (g): 每份饱和脂肪克数
    • Sodium (mg): 每份钠毫克数
    • Total Carbohydrates (g): 每份总碳水化合物克数
    • Cholesterol (mg): 每份胆固醇毫克数
    • Dietary Fibre (g): 每份膳食纤维克数
    • Sugars (g): 每份糖克数
搜集汇总
数据集介绍
main_image_url
构建方式
BostonHousing.csv数据集由美国人口普查局收集,涵盖了波士顿马萨诸塞州地区的住房信息。该数据集源自StatLib档案库,包含506个案例,每个案例包含14个属性。数据集的原始发布者为Harrison和Rubinfeld,他们在1978年发表的研究中首次公开了这些数据。数据集的构建基于对波士顿地区住房市场的详细调查,涵盖了从犯罪率到房屋中位价值的多个维度,旨在为环境经济学与管理领域的研究提供数据支持。
特点
BostonHousing.csv数据集具有多维度的特征,涵盖了从社会经济指标到环境因素的广泛信息。其特点在于数据的全面性和多样性,包括犯罪率、土地使用情况、空气质量、教育资源、交通便利性等多个方面。此外,数据集中的每个属性都经过精心设计,能够反映出波士顿地区住房市场的复杂性。特别是`MEDV`(房屋中位价值)作为目标变量,为研究者提供了预测和分析房价的基础。
使用方法
BostonHousing.csv数据集适用于多种数据科学任务,包括回归分析、特征选择和模型预测。研究者可以通过分析不同属性与房屋中位价值之间的关系,构建预测模型。例如,可以使用线性回归、决策树或随机森林等算法来预测房价。此外,数据集还可用于探索性数据分析(EDA),以揭示波士顿地区住房市场的潜在模式和趋势。通过Python或R等编程语言,用户可以轻松加载和处理该数据集,进行进一步的分析和建模。
背景与挑战
背景概述
BostonHousing.csv数据集源自美国人口普查局对波士顿马萨诸塞州住房区域的调查数据,最初由Harrison和Rubinfeld于1978年发布,作为其研究《Hedonic prices and the demand for clean air》的一部分。该数据集包含506个案例,每个案例有14个属性,涵盖了犯罪率、住宅用地比例、非零售业务用地比例、氮氧化物浓度等多个社会经济和环境因素,以及房屋中位数价值等关键变量。该数据集在房地产经济学和环境经济学领域具有重要影响力,尤其在研究房价与环境质量之间的关系方面,为学者提供了宝贵的实证数据。
当前挑战
BostonHousing.csv数据集在应用中面临多个挑战。首先,数据集的年代较为久远,可能无法完全反映当前的房地产市场和社会经济状况,因此在现代研究中的适用性受到限制。其次,数据集的样本量相对较小,仅为506个案例,可能难以捕捉到复杂的城市动态和多样性。此外,数据集中某些变量的测量方式和定义可能与现代标准不一致,导致分析结果的解释存在偏差。最后,数据集的属性之间可能存在多重共线性问题,增加了模型构建和解释的复杂性。
常用场景
经典使用场景
BostonHousing.csv数据集的经典使用场景主要集中在房地产价格预测和城市环境因素对房价的影响分析。通过分析数据集中的14个属性,如犯罪率、氮氧化物浓度、平均房间数等,研究者可以构建回归模型,预测波士顿地区房屋的中位价格。此外,该数据集常用于探索性数据分析(EDA),以揭示不同变量之间的相关性和潜在的因果关系。
实际应用
在实际应用中,BostonHousing.csv数据集被广泛用于房地产市场的分析和预测。例如,房地产开发商和投资者可以利用该数据集预测不同区域的房价趋势,从而做出更明智的投资决策。此外,城市规划者和政策制定者也可以通过分析数据集中的变量,评估不同政策对房价和社区发展的影响,进而制定更有效的城市规划策略。
衍生相关工作
BostonHousing.csv数据集的广泛应用催生了许多相关研究工作。例如,学者们基于该数据集开发了多种房价预测模型,并将其应用于其他城市的房地产市场分析。此外,该数据集还被用于探讨环境因素对房地产价值的影响,推动了环境经济学和城市经济学领域的研究进展。许多机器学习算法的研究也以该数据集为基准,验证算法的性能和鲁棒性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作