craigs
收藏Hugging Face2025-05-12 更新2025-05-13 收录
下载链接:
https://huggingface.co/datasets/broadfield-dev/craigs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含商品信息的数据集,具体字段包括商品类别、品牌、详细描述、价格、发布日期、链接、位置和城市等。数据集划分为训练集,共有956个示例。
This is a dataset containing product information, with specific fields including product category, brand, detailed description, price, release date, link, location and city, etc. The dataset is split into a training set which includes a total of 956 examples.
创建时间:
2025-05-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: broadfield-dev/craigs
- 下载大小: 81,885 字节
- 数据集大小: 221,730 字节
- 训练集样本数: 956 条
数据特征
- category: 字符串类型,表示类别
- brand: 字符串类型,表示品牌
- description: 字符串类型,表示描述
- price: 浮点数类型,表示价格
- post_date: 字符串类型,表示发布日期
- link: 字符串类型,表示链接
- location: 字符串类型,表示位置
- city: 字符串类型,表示城市
- craigslist_category: 字符串类型,表示Craigslist类别
- index_level_0: 整数类型,表示索引级别
数据划分
- 训练集: 包含 956 条样本,大小为 221,730 字节
搜集汇总
数据集介绍

构建方式
craigs数据集通过系统化采集美国知名分类广告平台Craigslist的公开商品信息构建而成,采用分布式爬虫技术对商品类别、品牌、价格等结构化字段进行精准提取。数据采集过程遵循网页信息抽取的最佳实践,确保字段完整性并保留原始发布的时间戳和地理位置信息,每条记录包含10个特征维度,最终形成包含956条样本的训练集。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,默认配置下自动加载train分割的完整数据。典型应用场景包括商品价格预测模型训练、二手市场文本挖掘或地域消费特征分析。使用时应结合post_date字段进行时间序列分析,利用location和city字段实现空间维度建模,自然语言描述字段适用于NLP任务的预处理。
背景与挑战
背景概述
craigs数据集作为专注于二手商品交易领域的研究资源,由匿名研究团队基于美国知名分类广告平台Craigslist构建而成。该数据集收录了2010年代中后期至2020年代初期的交易数据,涵盖商品类别、品牌描述、价格动态等关键特征,为消费行为分析和市场定价研究提供了重要实证基础。其多维度结构化数据设计,有效支持了电子商务领域关于用户偏好挖掘、价格弹性测算等核心问题的探索,成为近年来非传统零售数据研究的代表性样本之一。
当前挑战
该数据集面临的主要挑战体现在两个维度:在领域问题层面,二手商品描述的文本稀疏性和非标准化特征,为商品自动分类和价格预测模型带来语义理解障碍;在构建过程中,原始网页数据的异构性导致关键字段缺失率较高,且不同城市的地理位置标签存在标注不一致现象。此外,平台反爬虫机制造成的数据采集不完整性,也制约了时序分析的可靠性。
常用场景
经典使用场景
在电子商务和在线市场分析领域,craigs数据集以其丰富的商品分类、品牌信息和价格数据,成为研究二手商品市场动态的经典资源。研究者常利用该数据集分析不同城市间商品价格的区域差异,探索消费者偏好与品牌价值的关系,以及监测特定商品类别的市场供需变化趋势。
解决学术问题
该数据集有效解决了二手商品定价机制不透明、区域消费特征量化困难等学术难题。通过跨城市的商品描述与价格关联分析,学者们能够建立基于地理因素的定价模型,揭示经济因素对二手市场的影响规律,为消费行为学研究提供了实证基础。
实际应用
实际应用中,商业智能团队借助该数据集开发区域化定价策略工具,帮助卖家优化商品列表。城市管理部门则通过分析不同品类的流通频率,识别潜在的非法交易模式,提升在线市场治理效率。
数据集最近研究
最新研究方向
随着电子商务和在线二手交易平台的蓬勃发展,craigs数据集作为记录Craigslist平台交易信息的重要资源,近年来在多个前沿研究领域展现出独特价值。在自然语言处理领域,该数据集被广泛应用于商品描述文本生成模型的训练,研究者通过分析category、description等字段的关联性,探索基于深度学习的自动化商品描述生成技术。与此同时,该数据集的价格趋势分析和地理位置信息为区域经济学研究提供了微观数据支持,学者们正利用其探究不同城市二手商品价格波动与区域经济指标的关联规律。在虚假信息检测方向,结合link和post_date等特征的时间序列分析,成为识别平台异常交易行为的新兴研究方法。这些跨学科的应用不仅拓展了数据挖掘技术的边界,也为平台治理和用户体验优化提供了实证依据。
以上内容由遇见数据集搜集并总结生成



