five

rebrowser/copart-dataset

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/rebrowser/copart-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Copart报废车辆拍卖数据集包含来自Copart全国网络的报废车辆拍卖列表,包括损坏评估、状况等级、所有权状态和场地位置等信息。该数据集是一个预览样本,包含1,642,372条记录,涵盖拍卖列表的详细信息,如车辆类型、损坏描述、拍卖日期、里程、维修成本等。数据集还提供了字段分布、使用案例和代码示例,适用于报废价值建模、零件采购管道、区域市场分析和所有权状态研究等应用。

The Copart Salvage Vehicle Auction Dataset contains salvage vehicle auction listings with damage assessments, condition grades, title status, and yard locations from Coparts nationwide network. This dataset is a preview sample with 1,642,372 total records, focusing on auction listings that include vehicle details, damage descriptions, auction dates, mileage, repair costs, and more. It also provides field distributions, use cases, and code examples, making it suitable for applications such as salvage value modeling, parts sourcing pipelines, regional market analysis, and title status research.
提供机构:
rebrowser
搜集汇总
数据集介绍
main_image_url
构建方式
Copart Salvage Vehicle Auction Dataset由Rebrowser团队通过系统化的网络爬取技术,从Copart全美拍卖网络中收集而来。数据集以每日快照的形式捕获拍卖清单,时间跨度从2025年11月16日至2026年4月26日,共计超过166万条记录。此次发布的预览样本包含最多30,000行数据,约占完整数据集的1.8%,每日导出一个文件,每个文件最多包含1,000行,并保留最近30天的记录。数据以Parquet格式存储,包含拍卖清单(auction-listings)单一实体,涵盖了从车辆识别号到拍卖状态的60余个字段。
特点
该数据集的核心特色在于其丰富且精细的字段结构,覆盖了车辆损伤评估、状况等级、所有权状态及场地位置等关键信息。其中,损伤描述字段以55.9%的“前端损伤”占比凸显了主要损伤类型,而所有权类型分布显示“打捞证书”和“打捞所有权”合计占比超过62%。数据集的字段填充率普遍较高,多数字段如制造商、颜色、里程等均达到100%,为分析提供了可靠基础。此外,数据集包含了运行驾驶状态、估计零售价值、修复成本等关键经济指标,并提供了状态维度下加利福尼亚、德克萨斯等州的高频分布特征。
使用方法
使用者可通过Python的Pandas库便捷加载Parquet文件,例如利用glob和pd.read_parquet读取最近七天的数据。数据集支持多种高级应用场景:在打捞价值建模中,可基于损伤类型、状况等级和修复成本构建定价预测模型;在零部件采购管道中,可根据制造商、模型和损伤类型监控拍卖库存;在区域市场分析中,可比较各州和场地间的拍卖量、车辆组合及损伤模式;在所有权状态研究中,可分析不同类型的打捞证书和清洁所有权在车辆类别中的分布。此外,通过Rebrowser网页界面,用户无需购买即可筛选和预览数据,并支持CSV、JSON、JSONL或Parquet格式导出及API访问。
背景与挑战
背景概述
Copart Salvage Vehicle Auction Dataset是由Rebrowser团队于2025年构建并持续更新的公开数据集,旨在系统性地收录美国最大车辆残值拍卖平台Copart的拍卖列表信息。其核心研究问题聚焦于车辆事故后残值评估、损坏类型分布、区域市场差异及保险理赔定价等交叉领域,为汽车工程、保险精算与数据科学提供了大规模、高粒度的真实世界样本。该数据集涵盖了超过160万条记录,包含车辆识别码、损坏描述、里程数、预估零售价及维修成本等关键字段,其开放的预览样本与丰富的数据视角已初步展现出对车辆残值模型构建、零部件供应链优化及区域市场分析等研究方向的推动潜力。
当前挑战
该数据集所解决的领域挑战主要存在于车辆事故后残值精准评估与保险全损定价的复杂场景中,传统依赖人工经验的方法难以捕捉损坏类型、车型、区域等多维因素间的非线性交互效应。构建过程中面临的挑战则包括:从Copart网站高效爬取并解析不一致的半结构化拍卖页面数据,应对反爬机制与动态内容加载;处理大量缺失字段(如修理成本填充率仅96%)、异常值及多源数据格式的统一清洗;维护每日增量更新超过3万条记录的高频同步管道,同时确保敏感字段(如VIN、卖家信息)合规脱敏与版权许可的严格遵循。
常用场景
经典使用场景
在车辆残值与保险理赔研究领域,Copart Salvage Vehicle Auction Dataset 为构建 salvage value 预估模型提供了核心数据支撑。该数据集涵盖了逾166万条受损车辆拍卖记录,包含损伤类型、修复成本、里程数、车辆品牌型号及拍卖所在地等丰富字段,使得研究者能够基于多元特征对车辆残值进行量化分析。通过对比实际修复成本与拍卖成交价,可揭示市场对于不同损伤程度车辆的定价规律,进而为处理全损理赔案件的保险公司和二手车评估机构提供定价参考依据。
衍生相关工作
围绕该数据集衍生了若干具有代表性的研究工作。数据提供方 Rebrowser 基于拍卖列表字段构建了多组预置视图,如出价超千美元的车辆列表和可驾驶状态(Run & Drive)的资产分布,方便后续研究者快速切入分析。同时,官方释出的代码示例展示了如何结合 pandas 库对车辆制造商分布、损伤类型与里程的关系以及修复成本的统计特征进行探索性分析。该数据集还催生了针对 title status 法律差异的研究,包括各州对 salvage、rebuildable 和 clean title 的标注方式如何影响拍卖结果,从而为跨州政策评估与市场结构分析提供了实证基础。
数据集最近研究
最新研究方向
该数据集聚焦于残值车拍卖领域的前沿研究,尤其在极端天气事件频发与车辆全损率攀升的背景下,Copart数据集为构建残值车定价预测模型、基于损伤模式的部件供应链优化以及跨区域残值车市场流动性分析提供了绝佳的实证基础。结合保险行业对总损失评估与修复成本预测的迫切需求,研究者可借助其详尽的损伤描述、维修估价与竞拍价格字段,深入探讨气候灾害导致的区域性车辆报废分布规律,并挖掘不同权属状态(如残值证书与可重建标签)对拍卖成交率的因果效应,从而推动受损车辆估值从经验判断向数据驱动的精准化转型,对保险公司、拆解企业与二手车交易平台均具有显著的实践指导意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作