craigs

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/broadfield-dev/craigs

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含商品信息的数据集，具体字段包括商品类别、品牌、详细描述、价格、发布日期、链接、位置和城市等。数据集划分为训练集，共有956个示例。

This is a dataset containing product information, with specific fields including product category, brand, detailed description, price, release date, link, location and city, etc. The dataset is split into a training set which includes a total of 956 examples.

创建时间：

2025-05-11

原始信息汇总

数据集概述

基本信息

数据集名称: broadfield-dev/craigs
下载大小: 81,885 字节
数据集大小: 221,730 字节
训练集样本数: 956 条

数据特征

category: 字符串类型，表示类别
brand: 字符串类型，表示品牌
description: 字符串类型，表示描述
price: 浮点数类型，表示价格
post_date: 字符串类型，表示发布日期
link: 字符串类型，表示链接
location: 字符串类型，表示位置
city: 字符串类型，表示城市
craigslist_category: 字符串类型，表示Craigslist类别
index_level_0: 整数类型，表示索引级别

数据划分

训练集: 包含 956 条样本，大小为 221,730 字节

搜集汇总

数据集介绍

构建方式

craigs数据集通过系统化采集美国知名分类广告平台Craigslist的公开商品信息构建而成，采用分布式爬虫技术对商品类别、品牌、价格等结构化字段进行精准提取。数据采集过程遵循网页信息抽取的最佳实践，确保字段完整性并保留原始发布的时间戳和地理位置信息，每条记录包含10个特征维度，最终形成包含956条样本的训练集。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，默认配置下自动加载train分割的完整数据。典型应用场景包括商品价格预测模型训练、二手市场文本挖掘或地域消费特征分析。使用时应结合post_date字段进行时间序列分析，利用location和city字段实现空间维度建模，自然语言描述字段适用于NLP任务的预处理。

背景与挑战

背景概述

craigs数据集作为专注于二手商品交易领域的研究资源，由匿名研究团队基于美国知名分类广告平台Craigslist构建而成。该数据集收录了2010年代中后期至2020年代初期的交易数据，涵盖商品类别、品牌描述、价格动态等关键特征，为消费行为分析和市场定价研究提供了重要实证基础。其多维度结构化数据设计，有效支持了电子商务领域关于用户偏好挖掘、价格弹性测算等核心问题的探索，成为近年来非传统零售数据研究的代表性样本之一。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，二手商品描述的文本稀疏性和非标准化特征，为商品自动分类和价格预测模型带来语义理解障碍；在构建过程中，原始网页数据的异构性导致关键字段缺失率较高，且不同城市的地理位置标签存在标注不一致现象。此外，平台反爬虫机制造成的数据采集不完整性，也制约了时序分析的可靠性。

常用场景

经典使用场景

在电子商务和在线市场分析领域，craigs数据集以其丰富的商品分类、品牌信息和价格数据，成为研究二手商品市场动态的经典资源。研究者常利用该数据集分析不同城市间商品价格的区域差异，探索消费者偏好与品牌价值的关系，以及监测特定商品类别的市场供需变化趋势。

解决学术问题

该数据集有效解决了二手商品定价机制不透明、区域消费特征量化困难等学术难题。通过跨城市的商品描述与价格关联分析，学者们能够建立基于地理因素的定价模型，揭示经济因素对二手市场的影响规律，为消费行为学研究提供了实证基础。

实际应用

实际应用中，商业智能团队借助该数据集开发区域化定价策略工具，帮助卖家优化商品列表。城市管理部门则通过分析不同品类的流通频率，识别潜在的非法交易模式，提升在线市场治理效率。

数据集最近研究