diamond_dataset

github2023-01-30 更新2024-05-31 收录

下载链接：

https://github.com/cwolfbrandt/diamond_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

钻石数据集包含近40,000颗钻石的价格和其他属性。原始数据有9个特征 - 3个顺序分类（切割、颜色和净度）和6个数值（价格、深度、桌面、x、y和z）。

The diamond dataset comprises nearly 40,000 diamonds with their prices and other attributes. The original data includes 9 features - 3 ordinal categories (cut, color, and clarity) and 6 numerical values (price, depth, table, x, y, and z).

创建时间：

2019-06-07

原始信息汇总

数据集概述

数据集描述

名称: 钻石数据集
大小: 包含近40,000个钻石的价格和其他属性
特征: 数据集包含9个特征，其中3个是序数分类特征（切割、颜色和清晰度），6个是数值特征（价格、深度、桌面、x、y和z）。

特征详情

序数分类特征:
- 切割: 切割质量（公平、良好、非常好、溢价、理想）
- 颜色: 钻石颜色（J（最差）到D（最佳））
- 清晰度: 钻石清晰度测量（I1（最差），SI2，SI1，VS2，VS1，VVS2，VVS1，IF（最佳））
数值特征:
- 价格: 美元
- 深度: 总深度百分比 = z / 平均(x, y) = 2 * z / (x + y)
- 桌面: 钻石顶部宽度相对于最宽点
- X: 长度（毫米）
- Y: 宽度（毫米）
- Z: 深度（毫米）

数据清洗

问题: 数据集中存在x、y、z维度为0的行，这在物理上是不可能的。
处理: 通过删除任何值超出平均值±3个标准差的行来清洗数据，最终数据集包含38,371行。

特征工程

处理: 序数分类特征（切割、颜色、清晰度）被映射到数字，根据其层次结构，数字越大表示“更好”的值。
新特征: 通过将x、y、z维度相乘创建新特征“体积”，以简化模型。
价格转换: 由于价格分布严重偏斜，采用对数转换以获得更均匀的分布。

模型构建

目标: 构建模型预测每个钻石的价格，给定钻石特征的输入文件。
模型: 使用随机森林和线性回归模型。
模型评估:
- 随机森林模型:
  - MAE: 277.11美元
  - RMSE: 509.31美元
  - R²: 0.98
- 线性回归模型:
  - MAE: 417.66美元
  - RMSE: 779.50美元
  - R²: 0.95

结论

模型比较: 随机森林模型在拟合度上优于线性回归模型，但计算成本更高。
数据集应用: 该数据集适用于训练和预测钻石价格，通过不同的模型和特征工程方法。

搜集汇总

数据集介绍

构建方式

diamond_dataset的构建基于近40,000颗钻石的价格及其他属性数据，涵盖了9个特征，包括3个有序分类特征（切工、颜色、净度）和6个数值特征（价格、深度、台宽、长度、宽度、深度）。数据经过清洗，剔除了异常值，并通过特征工程对分类特征进行了数值映射，同时通过计算体积简化了多维特征。最终数据集经过对数变换，使得价格和体积的分布更加均匀，为后续建模提供了良好的数据基础。

使用方法

该数据集的使用方法包括数据预处理、特征工程和模型训练。用户可以通过scikit-learn的管道机制，将数据清洗、特征工程和模型训练集成到一个流程中。数据集支持随机森林和线性回归两种模型，用户可以根据需求选择模型进行训练或预测。训练过程中，模型会生成预测结果与真实值的对比图，并提供MAE、RMSE和R²等评估指标，帮助用户评估模型性能。预测时，用户只需提供输入数据和预训练模型，即可生成价格预测结果。

背景与挑战

背景概述

diamond_dataset 是一个专注于钻石价格预测的数据集，包含了近40,000颗钻石的价格及其相关属性。该数据集由多个研究人员和机构共同构建，旨在通过机器学习模型预测钻石的价格。数据集的核心研究问题在于如何利用钻石的物理属性（如切工、颜色、净度等）和几何尺寸（如长度、宽度、深度等）来准确预测其市场价格。该数据集在珠宝行业和机器学习领域具有重要影响力，为钻石定价模型的开发提供了宝贵的数据支持。

当前挑战

diamond_dataset 面临的挑战主要体现在两个方面。首先，数据集中存在大量异常值和噪声数据，例如某些钻石的尺寸为零，这在物理上是不可能的，因此需要进行严格的数据清洗。其次，数据集中的特征之间存在多重共线性问题，尤其是深度与几何尺寸之间的相关性，这可能导致模型预测的不稳定性。此外，钻石价格的分布呈现严重的偏态，需要通过对数变换等方法来调整数据分布，以提高模型的预测精度。这些挑战在数据预处理和模型构建过程中需要特别关注，以确保模型的鲁棒性和准确性。

常用场景

经典使用场景

diamond_dataset 数据集广泛应用于钻石价格预测领域，尤其是在机器学习和数据科学的研究中。通过该数据集，研究者可以构建回归模型，预测钻石的价格。数据集中的特征包括钻石的切割质量、颜色、净度以及尺寸等，这些特征为模型的训练提供了丰富的信息。经典的使用场景包括利用随机森林和线性回归模型进行价格预测，并通过特征工程优化模型性能。

解决学术问题

diamond_dataset 解决了钻石价格预测中的多个学术问题。首先，它通过提供大量的钻石特征数据，帮助研究者理解不同特征对价格的影响。其次，数据集中的特征工程步骤，如对数变换和体积计算，解决了数据分布偏斜和多重共线性问题。此外，该数据集还为研究者提供了对比不同模型（如随机森林和线性回归）性能的机会，从而推动了机器学习模型在价格预测领域的应用研究。

实际应用

在实际应用中，diamond_dataset 被广泛用于珠宝行业的定价策略制定。通过该数据集训练的模型，珠宝商可以更准确地评估钻石的市场价值，优化库存管理和定价决策。此外，该数据集还可用于消费者教育，帮助消费者了解钻石价格的影响因素，从而做出更明智的购买决策。数据集的应用不仅限于珠宝行业，还可扩展到其他奢侈品市场的价格预测研究。

数据集最近研究