foursquare-dataset

github2023-04-07 更新2024-05-31 收录

下载链接：

https://github.com/bayomim/foursquare-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为参加TREC 2016上下文建议跟踪而收集的，包含228,778个景点，如公园、餐厅、博物馆等。数据集以JSON格式存储，收集时间为2017年1月30日至2017年2月22日。数据集仅供研究使用，需引用相关论文。

This dataset was collected for participation in the TREC 2016 Contextual Suggestion Track, comprising 228,778 points of interest such as parks, restaurants, museums, etc. The dataset is stored in JSON format and was collected from January 30, 2017, to February 22, 2017. It is intended solely for research purposes, and the use of this dataset requires citation of the relevant paper.

创建时间：

2018-04-23

原始信息汇总

数据集概述

数据集名称

名称: foursquare-dataset
用途: 用于上下文建议研究

数据集详情

包含内容: 229,747个吸引力点，如公园、餐厅、博物馆等
更新历史:
- 2018-07-23: 新增969个吸引力点
数据格式: JSON
收集时间: 2017-01-30至2017-02-22，2018-07-23新增部分
地理位置: 美国不同城市的吸引力点
使用限制: 仅供研究使用

数据集结构

JSON对象内容:
- 吸引力ID
- 原始URL
- 标题
- 城市ID
- 城市名称
- 州
- 城市纬度
- 城市经度
- "foursquare"对象包含的数据:
  - 时间戳
  - 标题
  - foursquare URL
  - 评分
  - 评分次数
  - 评论次数
  - 照片数量
  - 类别
  - 营业时间
  - 场所URL
  - 地址
  - 描述
  - 其他位置信息
  - 特色
  - 菜单
  - 饮料
  - 标签云数组
  - 用户评论

引用信息

论文引用:

@inproceedings{bayomi2016adapt_tcd, title={ADAPT_TCD: An Ontology-Based Context Aware Approach for Contextual Suggestion.}, author={Bayomi, Mostafa and Lawless, S{e}amus}, booktitle={TREC}, year={2016} }

搜集汇总

数据集介绍

构建方式

foursquare-dataset数据集的构建基于TREC 2016 Contextual Suggestion track的需求，从2017年1月30日至2017年2月22日期间收集了228,778个景点数据，包括公园、餐厅、博物馆等。2018年7月23日，新增了969个景点，使总数达到229,747个。数据以JSON格式存储，每个对象包含景点的详细信息，如ID、城市、位置、用户评论等，所有用户名和ID均已匿名化处理。

特点

该数据集的显著特点在于其丰富的上下文信息，每个景点对象不仅包含基础信息如ID、城市和位置，还详细记录了从Foursquare收集的额外数据，如用户评分、评论数量、开放时间、特色服务等。此外，数据集中的用户评论和关键词云提供了深入的用户反馈和行为分析的可能性。

使用方法

使用foursquare-dataset数据集时，研究者可以通过解析JSON文件获取每个景点的详细信息，包括其地理位置、用户评价和开放时间等。该数据集特别适用于研究上下文推荐系统，通过分析用户评论和评分，可以构建和优化推荐算法。此外，数据集的匿名化处理确保了用户隐私，适合用于公开的研究和分析。

背景与挑战

背景概述

foursquare-dataset是由Mostafa Bayomi和Séamus Lawless等研究人员于2016年为参与TREC 2016 Contextual Suggestion track而创建的数据集。该数据集包含了228,778个来自美国不同城市的景点信息，如公园、餐厅、博物馆等，并在2018年7月23日进行了更新，新增了969个景点，总数达到229,747个。数据集以JSON格式存储，收集时间为2017年1月30日至2017年2月22日，主要用于研究目的，特别是上下文建议领域的研究。该数据集的创建旨在为上下文建议系统提供丰富的数据支持，推动相关领域的研究进展。

当前挑战

foursquare-dataset在构建过程中面临了多个挑战。首先，数据收集的时效性和准确性是一个重要问题，尤其是在不同城市间收集大量景点信息时，确保数据的实时更新和一致性尤为关键。其次，数据集中的用户评论和评分信息需要进行匿名化处理，以保护用户隐私，这增加了数据处理的复杂性。此外，如何从用户评论中提取有用的关键词和特征，以支持上下文建议系统的开发，也是一个技术上的挑战。最后，数据集的规模和多样性要求高效的存储和检索方法，以确保研究者能够快速访问和分析数据。

常用场景

经典使用场景

foursquare-dataset 数据集的经典使用场景主要集中在基于上下文的环境建议系统中。该数据集包含了大量来自美国不同城市的景点信息，如公园、餐厅、博物馆等，这些信息不仅包括景点的基本属性，如名称、地址、评分等，还涵盖了用户的评论和评分，为研究者提供了丰富的上下文信息。通过分析这些数据，研究者可以构建和优化基于用户偏好和地理位置的个性化推荐系统，从而为用户提供更加精准的旅行建议和活动推荐。

衍生相关工作

foursquare-dataset 数据集的发布催生了一系列相关研究工作。例如，基于该数据集的上下文感知推荐算法研究，推动了个性化推荐系统的发展；用户评论的情感分析研究，为理解用户偏好和行为提供了新的视角。此外，该数据集还被用于探索多源数据融合技术，通过整合来自不同平台的数据，提升推荐系统的准确性和鲁棒性。这些研究不仅丰富了推荐系统的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究