carfit-ai-synthetic

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/Mayab2/carfit-ai-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

CarFit AI合成数据集是一个100%合成的数据集，作为课程最终项目的一部分生成。其目标是模拟一个现实场景，用户描述日常需求（城市驾驶/家庭规模/通勤/预算），系统检索类似的合成用户并推荐符合这些需求的汽车。数据集包含合成用户档案、汽车目录和生成的文本样本，旨在支持使用现代嵌入模型进行检索和推荐管道。数据集设计用于测试和开发推荐系统，特别是在汽车推荐领域，强调多样性、一致性和关键信号的有效性。

创建时间：

2026-01-12

原始信息汇总

CarFit AI - Synthetic Dataset 概述

数据集基本信息

名称：CarFit AI - Synthetic Dataset
语言：英语
许可证：MIT
任务类别：句子相似性
标签：合成数据、嵌入、检索、推荐
性质：100% 合成数据，为课程最终项目生成

数据集目标

模拟用户描述日常需求（城市驾驶/家庭规模/通勤/预算）的现实场景，系统检索相似的合成用户并推荐符合需求的汽车。

数据集文件构成

users.csv：合成用户档案 + 偏好文本 + 细分标签
cars.csv：合成汽车目录，包含细分市场 + 规格（燃料、座位、行李箱、安全性、价格等）
synthetic_text_10k.csv：生成的文本样本（10,000+），作为基础文本模态
base_generated_samples.csv：用于快速检查的小样本文件
carfit_full_colab.ipynb：完整的 Colab 笔记本（生成 + 探索性数据分析 + 嵌入 + 管道）
eda_figures/：探索性数据分析图（PNG）
eda_figures.zip：探索性数据分析图的压缩版本（备份）

数据生成与内容

第一部分：合成数据生成（文本）

使用预训练的 Hugging Face 模型生成大型合成数据集。
生成 10,000+ 条合成偏好文本（文本模态要求）。
每条记录均为合成的“用户需求”描述（预算、家庭规模、驾驶模式、优先级）。
输出文件：synthetic_text_10k.csv、users.csv、cars.csv。

第二部分：数据集与探索性数据分析

验证合成数据集是否合理、具有足够多样性，并包含用于查找相似用户和推荐汽车的正确信号。

汽车数据集 (`cars.csv`) 关键洞察

细分市场分布：出现多个汽车细分市场，使推荐系统能够返回不同的“汽车类型”。
燃料类型分布：燃料类型多样（汽油/混合动力等），使合成目录更少重复且更真实。
价格直方图：价格分布范围广，有助于测试与预算相关的过滤和排名。
安全性直方图：安全分数并非恒定，变化支持按安全性进行有意义的排名。
行李箱直方图：行李箱大小变化足以支持“大行李箱”/“家庭旅行”等偏好。
按细分市场的平均价格：不同细分市场具有不同的典型价格范围，支持基于细分市场的推荐逻辑。

用户数据集 (`users.csv`) 关键洞察

标签（细分市场）分布：目标细分市场分布合理，对基于邻居的分类很重要。
年龄直方图：年龄覆盖合理范围，有助于生成多样化的偏好文本和生活方式模式。
孩子数量直方图：孩子数量在用户间变化，支持与家庭相关的需求（座位、行李箱、细分市场）。
预算直方图：预算变化足以支持预算提取和预算感知的推荐行为。
通勤距离直方图：通勤距离变化，支持“长途通勤舒适性”与“短途城市驾驶”等需求。
孩子数量与标签细分市场：更多孩子往往与更偏向家庭的细分市场一致。
城市驾驶与标签细分市场：城市驾驶为主的用户往往与较小的细分市场一致。
按标签的平均预算：不同细分市场显示不同的平均预算，使细分市场标签更有意义和一致。

探索性数据分析总结

合成数据集具有多样性、一致性，并包含管道所需的关键信号：

文本多样性（用户偏好）用于嵌入和相似性搜索
细分市场结构以支持“基于邻居的分类”
汽车属性变化以实现排名和基于约束的推荐

嵌入与模型评估

使用 3 种不同的 Hugging Face 嵌入模型对合成用户偏好文本进行嵌入。
评估并选择最佳模型用于检索管道。
嵌入保存为 .npy 文件，匹配的元数据保存为 .csv 文件。
获胜模型在 Colab 和 Space 应用中使用。

输入 → 输出管道流程

用户输入（自由文本） → 嵌入查询 → 查找前 3 个相似的合成用户 → 预测细分市场（邻居投票） → 推荐前 3 辆汽车。

核心思想：

相似性搜索使用归一化嵌入的余弦相似度进行。
细分市场预测从顶部邻居中推导得出。
推荐根据约束（例如，提供预算时）进行过滤，并按安全性和估计的月成本进行排名。

可重现性

重现数据集、探索性数据分析和嵌入管道所需的一切均包含在 carfit_full_colab.ipynb 中。

重要说明

该数据集不包含真实的个人数据（完全合成）。
该数据集旨在支持使用现代嵌入模型的检索 + 推荐管道。

搜集汇总

数据集介绍

构建方式

在汽车推荐系统研究领域，构建高质量且多样化的数据集是模型训练与评估的关键基础。CarFitAI合成数据集采用系统性生成方法，依托预训练语言模型google/flan-t5-small自动生成了超过一万条用户偏好文本，每条文本模拟真实用户对预算、家庭规模、通勤模式及生活方式的需求描述。这些文本随后与结构化元数据（如年龄、子女数量、家庭规模、通勤距离、月度预算及城市类型）进行关联，并标注了目标汽车细分市场标签（如微型车、超级微型车、轿车、SUV及七座车）。同时，研究团队构建了一个包含250款车型的合成汽车目录，涵盖多种细分市场、燃料类型、安全评分及价格区间，并通过BAAI/bge-small-en-v1.5模型为所有用户文本预先计算了嵌入向量，以支持高效的相似性检索任务。

特点

该数据集展现出多维度、结构化的特征体系，旨在支撑复杂的推荐与检索实验。核心特征包括一万个合成用户档案，每个档案均包含自然语言偏好文本、丰富的元数据字段以及基于需求的汽车细分标签。配套的合成汽车目录则提供了六种细分市场、两种燃料类型及多样化的属性分布，如安全评分、座椅数量、行李箱容积及价格区间，确保了数据的多样性与现实合理性。尤为突出的是，数据集提供了预计算的文本嵌入向量及其元数据映射文件，可直接用于向量相似性计算与邻居检索。此外，数据集附带了完整的数据探索分析图表与生成代码，增强了研究的可复现性与透明度。

使用方法

该数据集适用于汽车推荐系统、用户画像匹配及信息检索等研究方向。使用者可首先加载`users.csv`与`cars.csv`文件，获取结构化用户与汽车数据。对于检索任务，可利用预存的嵌入向量文件（`.npy`格式）及其元数据，通过余弦相似度计算用户查询与合成用户偏好文本之间的相似性，进而实现基于最近邻的细分市场预测。在推荐环节，可依据预测的细分标签、用户预算等约束条件对汽车目录进行筛选，并综合安全评分、预估月成本等属性进行排序，最终输出个性化推荐列表。随附的完整Colab笔记本提供了从数据生成、探索性分析到嵌入计算及管道构建的端到端示例，便于研究者快速复现与扩展实验流程。

背景与挑战

背景概述

CarFitAI合成汽车推荐数据集诞生于数据科学课程项目背景之下，旨在探索基于自然语言理解的个性化推荐系统。该数据集由教育机构或研究团队于近期构建，核心研究聚焦于如何通过合成用户偏好文本与结构化元数据的结合，实现精准的汽车匹配推荐。其创新之处在于利用预训练语言模型生成大规模合成数据，并整合多模态信息，为检索与推荐算法提供了丰富的实验平台，推动了对话式推荐与嵌入式检索技术在垂直领域的应用研究。

当前挑战

该数据集致力于解决个性化汽车推荐这一复杂问题，其核心挑战在于如何从简短、模糊的用户自然语言描述中准确提取多维需求，并映射到结构化的汽车属性空间。构建过程中的主要困难包括确保合成数据的多样性与真实性平衡，即生成既涵盖广泛用户场景又保持内在逻辑一致性的偏好文本；同时，有效整合文本嵌入与元数据以支撑鲁棒的相似度计算与推荐排序，亦是数据工程面临的关键技术难题。

常用场景

经典使用场景

在个性化推荐系统领域，CarFitAI合成数据集为汽车推荐任务提供了标准化的实验平台。该数据集通过合成的一万条用户偏好文本与结构化元数据，结合包含250款车型的合成目录，构建了完整的用户-物品交互框架。研究人员可基于预计算的文本嵌入向量，实施基于相似度检索的推荐流程，模拟从用户自然语言描述到汽车推荐结果的端到端推理过程，为推荐算法在文本理解与物品匹配方面的性能评估提供了基准环境。

实际应用

在汽车电商与数字化营销场景中，此类数据集能够支撑智能导购系统的原型开发与算法验证。企业可利用其模拟用户购车咨询的文本输入，训练自然语言理解模型以解析家庭结构、通勤需求与预算约束等多维度偏好。结合汽车属性数据库，系统可实现个性化车型筛选与排序，为在线汽车配置平台、经销商智能客服及移动端购车应用提供底层数据支持，提升用户购车体验的智能化水平。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于合成数据质量评估与混合推荐框架的构建。研究者借鉴其生成范式，开发了基于大语言模型的用户行为仿真方法，增强了合成文本的语义多样性。在算法层面，结合其预计算嵌入与元数据特征，涌现了多阶段检索-排序架构、基于邻居投票的细分市场预测模型以及融合安全评分与预算约束的多目标优化推荐策略，这些工作推动了合成数据在复杂推荐任务中的实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集