craigslist-used-cars-eda

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/Yoad22/craigslist-used-cars-eda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自美国各地Craigslist的二手车和卡车列表，经过清洗和预处理，用于探索性数据分析（EDA）。数据集原始大小为约426,000行×26列，主要目标变量为`price`（车辆的要价）。其他特征包括`year`（年份）、`manufacturer`（制造商）、`condition`（车况）、`odometer`（里程表读数）、`fuel`（燃料类型）、`transmission`（变速器类型）等。数据清洗过程包括删除无用列（如URL、VIN等）、处理缺失值（通过智能制造商和气缸恢复策略）、过滤不合理的值（如价格、年份和里程表的范围限制）以及检测重复项和异常值。此外，还进行了特征工程，例如计算车辆年龄（`car_age`）。该数据集适用于二手车价格预测、市场分析和车辆特征相关性研究等任务。

创建时间：

2026-04-11

原始信息汇总

Craigslist Used Cars and Trucks: EDA 数据集概述

数据集基本信息

名称: Craigslist Used Cars and Trucks: EDA
许可证: CC BY 4.0
标签: 表格数据、探索性数据分析、二手车、Craigslist、价格预测
数据格式: CSV
数据文件: vehicles_clean.csv (训练集)

数据来源与内容

原始来源: Kaggle (Austin Reese)，数据爬取自 Craigslist。
原始规模: 约 426,000 行，26 列。
内容: 美国各地的二手车和卡车列表。
目标变量: price (车辆标价)。
主要特征: 包括 year、manufacturer、condition、cylinders、fuel、odometer、transmission、drive、type、paint_color、state 等。

数据清洗与预处理

删除的列

删除以下对价格分析无价值的列：

url、region_url、image_url：链接。
description：自由文本字段。
VIN：每辆车唯一，无预测信号。
county：几乎全为空。
posting_date：不在此分析范围内。
region：已由 state 替代用于地理分析。
lat、long：地理坐标，与 state 冗余。

缺失值处理策略

删除列：缺失值超过50%的列。
删除行：缺失 price、year 或 odometer 的行。
智能制造商恢复：利用 model 信息恢复缺失的制造商，否则标记为 unknown。
智能气缸数恢复：按（制造商，型号）、（制造商，年份）、制造商、整体中位数的优先级顺序填充缺失的气缸数值。
通用中位数回退：作为剩余数值型缺失值的安全网。

不切实际值过滤

price：保留 500 至 150,000 美元之间的值。
year：保留 1990 至 2026 年之间的值。
odometer：保留小于 400,000 英里的值。

重复检测与特征工程

智能重复检测：基于九个内容字段匹配识别重复发布。
特征工程：创建新列 car_age，计算公式为 2026 - year。

探索性数据分析主要发现

价格分布

分布呈右偏。大多数汽车价格较低，少数豪华车拉高了均值。

制造商分析

最常见制造商：福特、雪佛兰、GMC、道奇等美国品牌占据主导。
平均价格最高制造商：GMC 和 Ram 等品牌平均价格较高。

关键影响因素

车况：最强的价格信号之一。"新车"和"准新车"价格最高，"报废车"价格最低。
里程表读数：与价格呈负相关。里程越高，价格越低。
燃料类型：柴油车和电动车的平均价格较高。
车龄：与价格呈负相关。车龄越大，平均价格越低。30至35年车龄的经典车价格存在峰值。
驱动类型：四轮驱动车辆的中位价格最高，其次是后轮驱动，最后是前轮驱动。

数值相关性

year 与 price：正相关。
car_age 与 price：负相关。
odometer 与 price：负相关。
cylinders 与 price：正相关。

结论

Craigslist 上的二手车定价由多种因素共同驱动。车况、车龄、里程和驱动类型是最强的个体信号。

仓库文件

vehicles_clean.csv：经过所有预处理步骤的清洗后数据集。
Craigslist_Used_Cars_EDA_Final.ipynb：完整的 EDA 笔记本。
presentation.mp4：2-3 分钟的视频讲解。
README.md：说明文件。

应用

笔记本中包含一个基于 EDA 结果的二手车价格计算器。根据制造商、年份、里程、车况和驱动类型五个输入，计算器在清洗后的数据集中查找相似列表，返回估算价格、典型价格范围以及基于相似车辆数量和价格一致性的定性置信度（高、中、低）。

搜集汇总

数据集介绍

构建方式

该数据集源自Craigslist平台上的二手车交易信息，通过网页爬虫技术采集了全美范围内的车辆列表。原始数据包含约426,000条记录与26个特征字段，涵盖了车辆年份、制造商、车况、里程数等关键属性。在数据清洗阶段，针对缺失值采用了分层填充策略，例如利用车型信息智能推断制造商，并依据制造商与车型组合填补气缸数。同时，通过设定价格、年份与里程的合理范围过滤异常值，并基于多字段匹配识别重复列表，最终构建出适用于价格预测分析的洁净数据集。

特点

数据集聚焦于美国二手车市场，其核心特征体现在多维度的车辆属性与价格关联性上。数据中不仅包含制造商、车况、驱动类型等分类变量，还整合了里程数、车辆年龄等连续特征，为探索价格影响因素提供了丰富维度。特别值得注意的是，数据分布呈现右偏态，反映出市场中高端车型虽少但对整体价格分布具有拉升效应。此外，通过对车况、燃料类型与驱动方式等字段的分析，可清晰观察到不同类别对价格的显著影响，例如柴油与电动车辆的平均价格较高，四轮驱动车型普遍定价更优。

使用方法

该数据集主要用于二手车价格预测模型的开发与验证，也可支持市场趋势分析与消费者行为研究。使用者可直接加载清洗后的CSV文件，利用年份、里程、车况等特征构建回归模型，以预测车辆挂牌价格。数据集中已包含衍生特征如车辆年龄，有助于增强模型解释性。此外，附带的探索性分析笔记本提供了可视化案例与价格计算器示例，用户可参照其方法进行相似度匹配或价格区间估算，从而在实际应用中辅助定价决策或市场评估。

背景与挑战

背景概述

Craigslist Used Cars and Trucks: EDA数据集聚焦于美国二手汽车市场的价格预测研究，其核心在于揭示线上平台中影响二手车定价的关键因素。该数据集源于Kaggle平台，由Austin Reese通过爬取Craigslist网站的全美二手车列表构建而成，原始规模包含约42.6万条记录与26个特征维度。研究围绕‘哪些因素最能影响Craigslist上二手车的标价’这一核心问题展开，目标变量为车辆的标价（price），涵盖制造商、车况、里程、年份、驱动类型等多维特征。此类数据集的构建为理解非结构化市场中的价格形成机制提供了实证基础，对汽车经济学、消费者行为分析以及机器学习在现实场景中的应用具有显著价值。

当前挑战

该数据集旨在解决二手车价格预测这一经典回归问题，其挑战在于市场价格的极高异质性，受车况、地域、品牌认知等多重非线性因素交织影响，且线上列表包含大量噪声与异常值。在构建过程中，数据清洗面临严峻挑战：原始爬取数据存在大量缺失值、不一致条目及重复发布，例如制造商信息需通过智能模型匹配进行恢复，气缸数需依据制造商-车型层级结构进行填补。此外，价格、里程等数值字段需过滤不现实范围（如免费列表或超40万英里里程），并采用基于分位数的离群值检测以净化分布。这些预处理步骤对保证后续探索性分析与模型训练的可靠性至关重要。

常用场景

经典使用场景

在二手车市场分析领域，Craigslist二手车数据集常被用于探索性数据分析，以揭示影响二手车定价的关键因素。研究者通过该数据集系统性地考察车辆年份、制造商、行驶里程、车况及驱动类型等特征与价格之间的关联，构建可视化图表如价格分布直方图、制造商平均价格条形图以及里程与价格的散点图，从而直观呈现市场定价规律与异常模式。

衍生相关工作

围绕该数据集衍生的经典工作包括基于回归树与梯度提升的二手车价格预测模型，以及结合地理信息的区域价格差异分析。部分研究进一步拓展至多模态学习，尝试融合车辆描述文本与图像数据；亦有工作聚焦于异常检测，识别欺诈性 listings，为在线交易安全提供了数据驱动的解决方案。

数据集最近研究