USED CAR MARKET|二手车市场数据集|数据分析数据集
收藏数据集概述
数据集名为“USED CAR MARKET”,包含从俄罗斯5个流行平台上收集的二手车销售信息。数据集主要用于分析非信任销售、通过特征进行销售信息聚类以及识别影响销售的潜在因素。
数据来源
数据来源于以下5个平台:
- Drom.ru
- Auto.ru
- Avito.ru
- Youla.ru
- Irr.ru
数据集结构
- /data 包含“interim”文件夹和集成结果文件(.csv格式)。
- /data/interim 包含由5个解析器获取的原始数据(.csv格式)。
- src 包含解析器的源代码。
数据收集与格式化
数据通过主页解析,获取详细信息并遍历所有页面。预处理包括统一度量和值,最终生成RAW DATA(位于/data/interim/)。特别注意颜色参数的统一,包括从auto.ru的十六进制转换和其他来源的颜色名称从俄语到英语的翻译。数据集成步骤包括合并所有来源的信息。
特征放置
数据集特征分为三个主要部分:车辆身份、技术参数和外观参数。
车辆身份特征
brand [производитель]
:品牌,字符串类型,如AUDI。model [модель]
:型号,字符串类型,如A3-A8, Q3-Q8等。year [год выпуска]
:生产年份,整数类型,范围从1960到2020。price [цена]
:价格,整数类型,单位为卢布(不含税)。mileage [пробег]
:行驶里程,整数类型,单位为公里。
技术参数特征
horsepower [лошадиные силы]
:马力,整数类型,单位为马力。engine_capacity [крутящий момент двигателя]
:发动机扭矩,浮点数类型,单位为牛米。engine_type [тип двигателя]
:发动机类型,字符串类型,如DIESEL, GASOLINE等。gear [привод]
:驱动类型,字符串类型,如ALL_WHEEL_DRIVE, FORWARD_CONTROL等。transmission [трансмиссия]
:变速箱类型,字符串类型,如AMT, AT等。
外观参数特征
bodywork [тип кузова]
:车身类型,字符串类型,如SEDAN, ALLROAD等。doors_num [количество дверей]
:车门数量,整数类型,范围从2到6。steering_wheel [руль]
:方向盘位置,字符串类型,如LEFT, RIGHT。tech_conditions [техническое состояние]
:车辆状况,字符串类型,如BEATEN, NOT_BEATEN。
其他参数
owners_num [количество владельцев по ПТС]
:车主数量,整数类型。vin [ВИН]
:车辆识别码,字符串类型。color [цвет]
:颜色,字符串类型,如BLACK, WHITE等。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录