five

USED CAR MARKET|二手车市场数据集|数据分析数据集

收藏
github2022-06-15 更新2024-05-31 收录
二手车市场
数据分析
下载链接:
https://github.com/vellic0ncent/used_car_market_dataset
下载链接
链接失效反馈
资源简介:
包含在公共来源上发布的二手车销售关键参数信息。数据可用于初始化非信任的二手车销售、通过特征对发布的销售信息进行聚类分析、识别影响销售的潜在因素。

This dataset contains key parameter information on used car sales published from public sources. The data can be utilized to initialize non-trusted used car sales, perform cluster analysis on published sales information based on features, and identify potential factors influencing sales.
创建时间:
2020-10-21
原始信息汇总

数据集概述

数据集名为“USED CAR MARKET”,包含从俄罗斯5个流行平台上收集的二手车销售信息。数据集主要用于分析非信任销售、通过特征进行销售信息聚类以及识别影响销售的潜在因素。

数据来源

数据来源于以下5个平台:

  1. Drom.ru
  2. Auto.ru
  3. Avito.ru
  4. Youla.ru
  5. Irr.ru

数据集结构

  • /data 包含“interim”文件夹和集成结果文件(.csv格式)。
  • /data/interim 包含由5个解析器获取的原始数据(.csv格式)。
  • src 包含解析器的源代码。

数据收集与格式化

数据通过主页解析,获取详细信息并遍历所有页面。预处理包括统一度量和值,最终生成RAW DATA(位于/data/interim/)。特别注意颜色参数的统一,包括从auto.ru的十六进制转换和其他来源的颜色名称从俄语到英语的翻译。数据集成步骤包括合并所有来源的信息。

特征放置

数据集特征分为三个主要部分:车辆身份、技术参数和外观参数。

车辆身份特征

  • brand [производитель]:品牌,字符串类型,如AUDI。
  • model [модель]:型号,字符串类型,如A3-A8, Q3-Q8等。
  • year [год выпуска]:生产年份,整数类型,范围从1960到2020。
  • price [цена]:价格,整数类型,单位为卢布(不含税)。
  • mileage [пробег]:行驶里程,整数类型,单位为公里。

技术参数特征

  • horsepower [лошадиные силы]:马力,整数类型,单位为马力。
  • engine_capacity [крутящий момент двигателя]:发动机扭矩,浮点数类型,单位为牛米。
  • engine_type [тип двигателя]:发动机类型,字符串类型,如DIESEL, GASOLINE等。
  • gear [привод]:驱动类型,字符串类型,如ALL_WHEEL_DRIVE, FORWARD_CONTROL等。
  • transmission [трансмиссия]:变速箱类型,字符串类型,如AMT, AT等。

外观参数特征

  • bodywork [тип кузова]:车身类型,字符串类型,如SEDAN, ALLROAD等。
  • doors_num [количество дверей]:车门数量,整数类型,范围从2到6。
  • steering_wheel [руль]:方向盘位置,字符串类型,如LEFT, RIGHT。
  • tech_conditions [техническое состояние]:车辆状况,字符串类型,如BEATEN, NOT_BEATEN。

其他参数

  • owners_num [количество владельцев по ПТС]:车主数量,整数类型。
  • vin [ВИН]:车辆识别码,字符串类型。
  • color [цвет]:颜色,字符串类型,如BLACK, WHITE等。
AI搜集汇总
数据集介绍
main_image_url
构建方式
USED CAR MARKET数据集的构建基于俄罗斯五个主流二手车交易平台(Drom.ru、Auto.ru、Avito.ru、Youla.ru、Irr.ru)的公开数据。通过编写解析器从平台主页抓取数据,并深入每个车辆详情页面提取详细信息。数据预处理包括统一度量单位和数值格式,例如将颜色参数转换为统一的十六进制编码或英文名称。最终,整合所有来源的数据形成统一的RAW DATA格式,并存储在CSV文件中。
特点
该数据集涵盖了二手车的多维特征,主要分为三大类:车辆身份信息、技术参数和车身结构参数。车辆身份信息包括品牌、型号、生产年份、价格和里程等;技术参数涉及发动机类型、马力、驱动方式和变速箱类型;车身结构参数则包括车身类型、车门数量、方向盘位置和技术状况等。此外,数据集还提供了其他关键信息,如车主数量、VIN码和车身颜色,为二手车市场的分析和预测提供了丰富的数据支持。
使用方法
USED CAR MARKET数据集适用于多种应用场景,包括二手车市场的非信任报价初始化、基于特征的聚类分析以及潜在销售影响因素的识别。用户可通过解析器源代码自定义数据抓取流程,或直接使用预处理后的CSV文件进行数据分析。数据集的结构化特征使其能够轻松集成到机器学习模型中,用于价格预测、市场趋势分析或车辆特征分类等任务。
背景与挑战
背景概述
USED CAR MARKET数据集聚焦于俄罗斯二手车市场的公开销售信息,旨在为二手车交易提供数据支持。该数据集由多个公开来源整合而成,涵盖了品牌、型号、年份、价格、里程等关键特征。其核心研究问题在于通过数据分析和聚类技术,识别影响二手车销售的潜在因素,并帮助用户筛选可信的销售信息。该数据集的创建时间为近年,主要研究人员或机构未明确提及,但其数据来源包括Drom.ru、Auto.ru等俄罗斯知名二手车交易平台。该数据集对二手车市场分析、价格预测以及消费者行为研究具有重要参考价值。
当前挑战
USED CAR MARKET数据集在构建和应用过程中面临多重挑战。首先,数据来源的多样性和异构性导致数据整合难度较大,例如颜色参数的统一化处理(如将俄语颜色名称翻译为英语)和度量单位的标准化。其次,数据质量参差不齐,部分信息可能存在缺失或错误,影响后续分析的准确性。此外,二手车市场的动态变化使得数据时效性成为关键问题,数据集需要定期更新以保持其研究价值。最后,如何通过该数据集有效识别影响销售的潜在因素,仍需依赖复杂的机器学习模型和领域知识的深度结合。
常用场景
经典使用场景
在二手车市场研究中,USED CAR MARKET数据集被广泛应用于分析车辆销售的关键参数。研究者通过该数据集可以深入探讨不同品牌、型号、年份及技术参数对二手车价格的影响,进而为市场定价策略提供科学依据。此外,该数据集还支持对车辆销售趋势的预测,帮助市场参与者做出更为精准的决策。
衍生相关工作
基于USED CAR MARKET数据集,研究者们已经开展了多项经典工作。例如,有研究利用该数据集开发了二手车价格预测模型,显著提升了预测的准确性。此外,还有研究基于该数据集进行了市场细分分析,揭示了不同消费者群体的购车偏好。这些工作不仅丰富了二手车市场的研究内容,也为相关行业的实践提供了理论支持。
数据集最近研究
最新研究方向
近年来,二手车市场数据集的研究方向主要集中在利用机器学习算法进行价格预测和销售趋势分析。研究者们通过整合来自多个公开平台的数据,构建了包含品牌、型号、年份、价格、里程等关键特征的二手车数据集。这些数据不仅用于训练和验证预测模型,还被广泛应用于市场聚类分析和潜在销售影响因素识别。特别是在俄罗斯等新兴市场,数据集的多样性和广泛性为研究提供了丰富的实验基础。此外,随着电动汽车和混合动力汽车的普及,数据集中的发动机类型和动力参数也成为研究热点,为未来汽车市场的转型提供了数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录