vehicle_sales_data

Hugging Face2025-12-03 更新2025-12-04 收录

下载链接：

https://huggingface.co/datasets/yuvalkorem1/vehicle_sales_data

下载链接

链接失效反馈

官方服务：

资源简介：

该项目数据集专注于二手车公平市场价值的预测，利用机器学习技术分析车辆年龄、使用情况（里程）、技术（燃料/变速器）和品牌价值等复杂非线性关系。数据集包含超过360,000条真实市场列表，经过严格的数据清洗和特征工程处理，包括使用K-Means聚类创建'使用集群'特征。数据集支持回归和分类任务，关键特征包括年份、里程表、制造商、燃料类型、变速器、驱动方式、车辆类型、油漆颜色和状况评分。项目成果显示，随机森林模型在回归任务中达到了R²=0.837的高精度，分类任务中准确率约为80%。

创建时间：

2025-11-29

搜集汇总

数据集介绍

构建方式

在车辆销售数据集的构建过程中，作者采用了智能数据填补策略以应对数据缺失的挑战。初始阶段，严格删除缺失值的做法导致数据集规模从约42万行缩减至7万行，可能引入幸存者偏差并限制模型的泛化能力。随后转向基于市场统计的填补方法，例如使用中位数填充里程表缺失值、众数填充分类特征，最终恢复至36.3万行数据，显著提升了数据集的代表性和多样性。

特点

该数据集涵盖了超过36万条真实市场车辆列表，包含年份、里程、制造商、燃料类型、变速箱等关键特征。通过K均值聚类技术，生成了基于年份与里程的“使用集群”特征，有效识别了如“车库珍藏车”与“高速公路战士”等市场细分群体。数据集支持回归与分类任务，在随机森林模型上实现了0.837的R²分数，分类准确率约80%，体现了其在价格预测中的高实用性。

使用方法

数据集适用于表格回归与分类任务，用户可通过加载预处理后的CSV文件直接进行模型训练。在特征工程阶段，建议利用已有的“使用集群”特征增强模型对车辆磨损模式的识别能力。对于预测任务，可调用随附的随机森林回归模型或分类模型，分别实现精确价格预测或低、中、高价格区间的划分，从而支持车辆估值或市场分析应用。

背景与挑战

背景概述

在经济学与数据科学的交叉领域，准确评估二手车市场价值一直是学术界与产业界共同关注的核心议题。传统估值方法多依赖于线性折旧模型，难以捕捉市场动态与非线性的复杂特征。为此，研究者Yuval于数据科学课程项目中构建了vehicle_sales_data数据集，旨在通过机器学习技术实现自动化车辆估值。该数据集收录了超过36万条真实市场交易记录，涵盖了车辆年份、里程、制造商、燃料类型等多维度特征，为探索价格预测模型提供了丰富的数据基础。其核心研究问题聚焦于如何从海量异构数据中提取有效特征，并建立高精度的回归与分类模型，以推动智能估值系统的发展，对汽车金融、保险定价及市场分析等领域具有显著的应用价值。

当前挑战

该数据集致力于解决二手车价格预测这一领域问题，其挑战主要体现在数据的高度异构性与市场动态性。车辆价格受品牌声誉、技术配置、使用状况及区域经济等多因素交织影响，传统线性模型难以捕捉复杂的非线性关系。在构建过程中，数据集面临严峻的数据质量问题，初始版本因严格删除缺失值导致样本量锐减至7万条，引发了幸存者偏差风险，限制了模型的泛化能力。研究者通过智能插补策略，对里程表缺失值采用中位数填充、分类特征采用众数填充，将数据规模恢复至36万余条，但这一过程仍需谨慎处理插补引入的潜在偏差，并确保特征工程（如基于K-Means的使用聚类）能够有效表征车辆磨损模式，以支撑随机森林等模型达到较高的预测精度。

常用场景

经典使用场景

在汽车销售与经济学交叉领域，vehicle_sales_data数据集为机器学习模型提供了丰富的训练基础，经典使用场景集中于二手车价格预测。通过整合超过36万条真实市场列表，该数据集支持回归与分类任务，使研究者能够构建精准的估值模型。例如，利用随机森林算法，模型可分析车辆年份、里程、制造商及技术特征之间的非线性关系，实现高精度的价格估算，为自动化车辆评估奠定数据基石。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在机器学习与特征工程领域。例如，基于随机森林和XGBoost的回归模型实现了高R²分数，推动了车辆价格预测算法的优化。同时，分类任务中的价格层级划分研究，如低/中/高等级预测，促进了多类别分类方法的创新。这些工作不仅扩展了数据集的用途，还为相关领域的学术探索提供了可复现的基准和灵感来源。

数据集最近研究