five

全国二手汽车车源信息去重数据

收藏
广东省数据知识产权存证登记平台2024-03-29 更新2024-05-08 收录
下载链接:
https://data.gpic.gd.cn/dataStorage/credentialInfo.jhtml?no=440106CM740032404013
下载链接
链接失效反馈
官方服务:
资源简介:
该数据是用于对全国二手车网站内和网站间的车源进行去重,是提升二手车数据质量的重要步骤。主要内容为根据经销商的车源信息,找出经销商关系。并根据经销商关系,对同一段时间内有关系的经销商,判断车源是否为重复车源。判断经销商关系,经销商“共享”车源或同一个经销商在不同网站上同时上架相同车源,通过计算经销商之间“共享车源”的比例,超过阈值则认为两个经销商为同一经销商或经销商联盟。判断重复车源,对同一经销商或经销商联盟,当城市,颜色、上牌时间、型号相同情况下,若两车的里程(万公里)不大于0.2,且里程差异百分比不大于5%,则判断两车为重复车源。该数据可以用于国内所有二手车平台的车源去重工作,从而为数据分析、数据建模提供高质量的数据来源。
提供机构:
广东数鼎科技有限公司
创建时间:
2024-03-29
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集专注于全国二手车车源信息的去重处理,旨在提升数据质量。它通过分析经销商之间的'共享车源'比例来识别经销商关系,并基于城市、颜色、上牌时间、型号和里程等条件判断重复车源。该数据适用于所有二手车平台,为数据分析和建模提供了高质量的基础支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务