USED CAR MARKET
收藏github2022-06-15 更新2024-05-31 收录
下载链接:
https://github.com/vellic0ncent/used_car_market_dataset
下载链接
链接失效反馈官方服务:
资源简介:
包含在公共来源上发布的二手车销售关键参数信息。数据可用于初始化非信任的二手车销售、通过特征对发布的销售信息进行聚类分析、识别影响销售的潜在因素。
This dataset contains key parameter information on used car sales published from public sources. The data can be utilized to initialize non-trusted used car sales, perform cluster analysis on published sales information based on features, and identify potential factors influencing sales.
创建时间:
2020-10-21
原始信息汇总
数据集概述
数据集名为“USED CAR MARKET”,包含从俄罗斯5个流行平台上收集的二手车销售信息。数据集主要用于分析非信任销售、通过特征进行销售信息聚类以及识别影响销售的潜在因素。
数据来源
数据来源于以下5个平台:
- Drom.ru
- Auto.ru
- Avito.ru
- Youla.ru
- Irr.ru
数据集结构
- /data 包含“interim”文件夹和集成结果文件(.csv格式)。
- /data/interim 包含由5个解析器获取的原始数据(.csv格式)。
- src 包含解析器的源代码。
数据收集与格式化
数据通过主页解析,获取详细信息并遍历所有页面。预处理包括统一度量和值,最终生成RAW DATA(位于/data/interim/)。特别注意颜色参数的统一,包括从auto.ru的十六进制转换和其他来源的颜色名称从俄语到英语的翻译。数据集成步骤包括合并所有来源的信息。
特征放置
数据集特征分为三个主要部分:车辆身份、技术参数和外观参数。
车辆身份特征
brand [производитель]:品牌,字符串类型,如AUDI。model [модель]:型号,字符串类型,如A3-A8, Q3-Q8等。year [год выпуска]:生产年份,整数类型,范围从1960到2020。price [цена]:价格,整数类型,单位为卢布(不含税)。mileage [пробег]:行驶里程,整数类型,单位为公里。
技术参数特征
horsepower [лошадиные силы]:马力,整数类型,单位为马力。engine_capacity [крутящий момент двигателя]:发动机扭矩,浮点数类型,单位为牛米。engine_type [тип двигателя]:发动机类型,字符串类型,如DIESEL, GASOLINE等。gear [привод]:驱动类型,字符串类型,如ALL_WHEEL_DRIVE, FORWARD_CONTROL等。transmission [трансмиссия]:变速箱类型,字符串类型,如AMT, AT等。
外观参数特征
bodywork [тип кузова]:车身类型,字符串类型,如SEDAN, ALLROAD等。doors_num [количество дверей]:车门数量,整数类型,范围从2到6。steering_wheel [руль]:方向盘位置,字符串类型,如LEFT, RIGHT。tech_conditions [техническое состояние]:车辆状况,字符串类型,如BEATEN, NOT_BEATEN。
其他参数
owners_num [количество владельцев по ПТС]:车主数量,整数类型。vin [ВИН]:车辆识别码,字符串类型。color [цвет]:颜色,字符串类型,如BLACK, WHITE等。
搜集汇总
数据集介绍

构建方式
USED CAR MARKET数据集的构建基于俄罗斯五个主流二手车交易平台(Drom.ru、Auto.ru、Avito.ru、Youla.ru、Irr.ru)的公开数据。通过编写解析器从平台主页抓取数据,并深入每个车辆详情页面提取详细信息。数据预处理包括统一度量单位和数值格式,例如将颜色参数转换为统一的十六进制编码或英文名称。最终,整合所有来源的数据形成统一的RAW DATA格式,并存储在CSV文件中。
特点
该数据集涵盖了二手车的多维特征,主要分为三大类:车辆身份信息、技术参数和车身结构参数。车辆身份信息包括品牌、型号、生产年份、价格和里程等;技术参数涉及发动机类型、马力、驱动方式和变速箱类型;车身结构参数则包括车身类型、车门数量、方向盘位置和技术状况等。此外,数据集还提供了其他关键信息,如车主数量、VIN码和车身颜色,为二手车市场的分析和预测提供了丰富的数据支持。
使用方法
USED CAR MARKET数据集适用于多种应用场景,包括二手车市场的非信任报价初始化、基于特征的聚类分析以及潜在销售影响因素的识别。用户可通过解析器源代码自定义数据抓取流程,或直接使用预处理后的CSV文件进行数据分析。数据集的结构化特征使其能够轻松集成到机器学习模型中,用于价格预测、市场趋势分析或车辆特征分类等任务。
背景与挑战
背景概述
USED CAR MARKET数据集聚焦于俄罗斯二手车市场的公开销售信息,旨在为二手车交易提供数据支持。该数据集由多个公开来源整合而成,涵盖了品牌、型号、年份、价格、里程等关键特征。其核心研究问题在于通过数据分析和聚类技术,识别影响二手车销售的潜在因素,并帮助用户筛选可信的销售信息。该数据集的创建时间为近年,主要研究人员或机构未明确提及,但其数据来源包括Drom.ru、Auto.ru等俄罗斯知名二手车交易平台。该数据集对二手车市场分析、价格预测以及消费者行为研究具有重要参考价值。
当前挑战
USED CAR MARKET数据集在构建和应用过程中面临多重挑战。首先,数据来源的多样性和异构性导致数据整合难度较大,例如颜色参数的统一化处理(如将俄语颜色名称翻译为英语)和度量单位的标准化。其次,数据质量参差不齐,部分信息可能存在缺失或错误,影响后续分析的准确性。此外,二手车市场的动态变化使得数据时效性成为关键问题,数据集需要定期更新以保持其研究价值。最后,如何通过该数据集有效识别影响销售的潜在因素,仍需依赖复杂的机器学习模型和领域知识的深度结合。
常用场景
经典使用场景
在二手车市场研究中,USED CAR MARKET数据集被广泛应用于分析车辆销售的关键参数。研究者通过该数据集可以深入探讨不同品牌、型号、年份及技术参数对二手车价格的影响,进而为市场定价策略提供科学依据。此外,该数据集还支持对车辆销售趋势的预测,帮助市场参与者做出更为精准的决策。
衍生相关工作
基于USED CAR MARKET数据集,研究者们已经开展了多项经典工作。例如,有研究利用该数据集开发了二手车价格预测模型,显著提升了预测的准确性。此外,还有研究基于该数据集进行了市场细分分析,揭示了不同消费者群体的购车偏好。这些工作不仅丰富了二手车市场的研究内容,也为相关行业的实践提供了理论支持。
数据集最近研究
最新研究方向
近年来,二手车市场数据集的研究方向主要集中在利用机器学习算法进行价格预测和销售趋势分析。研究者们通过整合来自多个公开平台的数据,构建了包含品牌、型号、年份、价格、里程等关键特征的二手车数据集。这些数据不仅用于训练和验证预测模型,还被广泛应用于市场聚类分析和潜在销售影响因素识别。特别是在俄罗斯等新兴市场,数据集的多样性和广泛性为研究提供了丰富的实验基础。此外,随着电动汽车和混合动力汽车的普及,数据集中的发动机类型和动力参数也成为研究热点,为未来汽车市场的转型提供了数据支持。
以上内容由遇见数据集搜集并总结生成



