Ctrip.com Social Media Dataset

github2026-02-27 更新2026-02-28 收录

下载链接：

https://github.com/Data-Science-Project-2026/ProjectNew

下载链接

链接失效反馈

官方服务：

资源简介：

数据集来源：来自Ctrip.com（类似于TripAdvisor）的众包数据。范围：中国36个城市的720个代表性城市公园。数量：总计约853,977条社交媒体文本和985,025张社交媒体图片。元数据：地理标签和时间戳。

Dataset Source: Crowdsourced data from Ctrip.com, a platform analogous to TripAdvisor. Scope: 720 representative urban parks across 36 cities in China. Volume: A total of approximately 853,977 social media texts and 985,025 social media images. Metadata: Geotags and timestamps.

创建时间：

2026-02-03

原始信息汇总

数据集概述

数据集基本信息

名称：Data Science Project
来源：Ctrip.com（类似于TripAdvisor）的众包数据
地理范围：中国36个城市的720个代表性城市公园
数据总量：约853,977条社交媒体文本和985,025张社交媒体图像
元数据：包含地理标签和时间戳

研究目的与分析方法

研究目的：基于大型社交媒体数据集，对人与自然互动进行多模态分析，旨在可视化社交媒体帖子中关于城市自然的信息。
分析方法：
- 对文本帖子进行情感分析。
- 对图像进行分析，以判断其内容是人、植物还是动物。
  - 若图像中包含人，则进行人类活动识别。
  - 若图像中包含动物或植物，则进行细粒度物种识别。

技术架构与部署

核心工作流：由 src/pipeline/orchestrator.py 编排。
数据处理流程：导入CSV文件，摄取原始图像文件（将其复制到受管理的 image_root 目录），然后运行三种模型（BioClip、情感分析/BERT和Qwen），并将结果写入PostgreSQL数据库。
数据库设计：数据库不存储原始文件路径或二进制大对象，仅存储数字ID和哈希值，以保持PostgreSQL实例轻量。
部署方式：支持通过Docker Compose进行容器化部署。
模型服务：
- BioClip-Container：用于物种识别。
- Bert-Container：用于情感分析。
- Qwen-Container：用于人类活动识别。

项目背景

课程项目：赫尔辛基大学（2026年）数据科学课程项目。
开发团队：Group 5 - Data Science Project 2026。

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，Ctrip.com社交媒体数据集通过众包方式从携程网平台收集而来，聚焦于中国36个城市的720个代表性城市公园。该数据集整合了约85.4万条社交媒体文本与98.5万张图像，每条数据均附带地理标签与时间戳，确保了时空维度的完整性。数据构建过程依托自动化流水线，将原始文件导入后，通过BioClip、BERT及Qwen等模型进行多模态分析，最终将结构化结果存储于PostgreSQL数据库中，实现了高效的数据管理与轻量级存储。

特点

该数据集的核心特点在于其多模态融合与细粒度标注。文本数据经过情感分析，揭示用户对城市自然景观的主观感受；图像数据则通过深度学习模型识别内容类别，区分人物、植物或动物，并对人类活动进行行为识别，对动植物则实施精细物种鉴定。数据集覆盖广泛的地理范围与时间跨度，为研究人-自然互动提供了丰富的实证材料。其结构化设计支持灵活查询与分析，便于可视化工具如Metabase进行动态展示，增强了数据探索的交互性与直观性。

使用方法

使用该数据集时，用户可通过Docker Compose快速部署整个分析流水线，包括数据库与模型容器。数据上传支持CSV文件与图像文件夹的批量导入，通过命令行工具指定路径即可触发自动化处理流程。用户可根据研究需求选择启用特定模型，例如仅运行Qwen进行人类活动识别，以优化计算资源。集成测试模块提供了验证管道功能的便捷方式，确保各组件协同稳定。最终分析结果存储于数据库中，可通过SQL查询或仪表板工具进行可视化探索，支持城市生态与人类行为的多维度研究。

背景与挑战

背景概述

Ctrip.com社交媒体数据集诞生于2026年，由赫尔辛基大学数据科学课程第五小组创建，旨在通过多模态分析揭示城市自然环境中的人类互动模式。该数据集源自中国36个城市中720个代表性城市公园的众包数据，涵盖约85.4万条社交媒体文本与98.5万张图像，并附有地理标签与时间戳。其核心研究问题聚焦于利用计算机视觉与自然语言处理技术，从海量用户生成内容中提取关于城市自然景观的情感倾向、生物多样性及人类活动特征，为城市生态规划与公众行为研究提供了宝贵的实证基础。

当前挑战

该数据集致力于解决城市自然交互的多模态分析难题，其挑战首先体现在领域问题的复杂性上：需同时处理文本情感分析、图像中动植物细粒度物种识别以及人类活动识别等多重任务，对模型的跨模态理解与协同能力提出了极高要求。在构建过程中，研究者面临数据规模庞大且异构的挑战，包括从非结构化社交媒体内容中清洗、标注高质量样本，并设计高效管道集成BioClip、BERT与Qwen等异构模型，同时确保地理与时间元数据的一致性，以支撑可靠的空间时间分析。

常用场景

经典使用场景

在生态学与城市景观规划领域，Ctrip.com社交媒体数据集为研究人类与自然互动提供了宝贵资源。该数据集通过整合携程网用户在中国36个城市720个代表性城市公园发布的近百万条文本与图像数据，结合地理标签与时间戳，支持多模态分析。经典应用场景包括利用情感分析模型处理文本内容，识别用户对自然环境的情绪倾向；同时借助图像识别技术，自动检测图片中的人物、动植物类别，并对动植物进行细粒度物种鉴定，从而系统揭示城市公园中人类活动的模式及其与生物多样性的关联。

实际应用

在实际应用中，该数据集支持城市管理部门与规划机构优化公园设计与服务。例如，通过分析用户情感与活动识别结果，可评估不同公园设施的受欢迎程度，识别需要维护的自然区域；物种识别数据有助于监测城市生物多样性变化，为生态保护提供依据。此外，结合地理信息，能够可视化热门休闲区域与游客流动模式，辅助城市旅游推广与公共空间管理，提升居民与自然互动的质量。

衍生相关工作

基于该数据集的多模态分析框架，衍生了一系列经典研究工作。例如，利用BioClip模型进行细粒度物种识别，推动了计算机视觉在生态监测中的应用；结合BERT的情感分析扩展了环境感知研究的深度；Qwen模型的人类活动识别则丰富了行为生态学的数据维度。这些工作不仅提升了社交媒体数据在环境科学中的利用率，还为后续研究如城市热岛效应缓解、绿色基础设施评估等提供了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集