Ctrip.com Social Media Dataset
收藏github2026-02-27 更新2026-02-28 收录
下载链接:
https://github.com/Data-Science-Project-2026/ProjectNew
下载链接
链接失效反馈官方服务:
资源简介:
数据集来源:来自Ctrip.com(类似于TripAdvisor)的众包数据。范围:中国36个城市的720个代表性城市公园。数量:总计约853,977条社交媒体文本和985,025张社交媒体图片。元数据:地理标签和时间戳。
Dataset Source: Crowdsourced data from Ctrip.com, a platform analogous to TripAdvisor. Scope: 720 representative urban parks across 36 cities in China. Volume: A total of approximately 853,977 social media texts and 985,025 social media images. Metadata: Geotags and timestamps.
创建时间:
2026-02-03
原始信息汇总
数据集概述
数据集基本信息
- 名称:Data Science Project
- 来源:Ctrip.com(类似于TripAdvisor)的众包数据
- 地理范围:中国36个城市的720个代表性城市公园
- 数据总量:约853,977条社交媒体文本和985,025张社交媒体图像
- 元数据:包含地理标签和时间戳
研究目的与分析方法
- 研究目的:基于大型社交媒体数据集,对人与自然互动进行多模态分析,旨在可视化社交媒体帖子中关于城市自然的信息。
- 分析方法:
- 对文本帖子进行情感分析。
- 对图像进行分析,以判断其内容是人、植物还是动物。
- 若图像中包含人,则进行人类活动识别。
- 若图像中包含动物或植物,则进行细粒度物种识别。
技术架构与部署
- 核心工作流:由
src/pipeline/orchestrator.py编排。 - 数据处理流程:导入CSV文件,摄取原始图像文件(将其复制到受管理的
image_root目录),然后运行三种模型(BioClip、情感分析/BERT和Qwen),并将结果写入PostgreSQL数据库。 - 数据库设计:数据库不存储原始文件路径或二进制大对象,仅存储数字ID和哈希值,以保持PostgreSQL实例轻量。
- 部署方式:支持通过Docker Compose进行容器化部署。
- 模型服务:
BioClip-Container:用于物种识别。Bert-Container:用于情感分析。Qwen-Container:用于人类活动识别。
相关文档链接
- 数据库文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/database.md
- 仪表板文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/dashboard.md
- 流水线文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/pipeline.md
- 物种识别文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/species_identification.md
- 情感分析文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/sentiment_analysis.md
- 人类活动识别文档:https://github.com/Data-Science-Project-2026/ProjectNew/blob/main/documentation/human_activity_recognition.md
项目背景
- 课程项目:赫尔辛基大学(2026年)数据科学课程项目。
- 开发团队:Group 5 - Data Science Project 2026。
搜集汇总
数据集介绍
构建方式
在社交媒体分析领域,Ctrip.com社交媒体数据集通过众包方式从携程网平台收集而来,聚焦于中国36个城市的720个代表性城市公园。该数据集整合了约85.4万条社交媒体文本与98.5万张图像,每条数据均附带地理标签与时间戳,确保了时空维度的完整性。数据构建过程依托自动化流水线,将原始文件导入后,通过BioClip、BERT及Qwen等模型进行多模态分析,最终将结构化结果存储于PostgreSQL数据库中,实现了高效的数据管理与轻量级存储。
特点
该数据集的核心特点在于其多模态融合与细粒度标注。文本数据经过情感分析,揭示用户对城市自然景观的主观感受;图像数据则通过深度学习模型识别内容类别,区分人物、植物或动物,并对人类活动进行行为识别,对动植物则实施精细物种鉴定。数据集覆盖广泛的地理范围与时间跨度,为研究人-自然互动提供了丰富的实证材料。其结构化设计支持灵活查询与分析,便于可视化工具如Metabase进行动态展示,增强了数据探索的交互性与直观性。
使用方法
使用该数据集时,用户可通过Docker Compose快速部署整个分析流水线,包括数据库与模型容器。数据上传支持CSV文件与图像文件夹的批量导入,通过命令行工具指定路径即可触发自动化处理流程。用户可根据研究需求选择启用特定模型,例如仅运行Qwen进行人类活动识别,以优化计算资源。集成测试模块提供了验证管道功能的便捷方式,确保各组件协同稳定。最终分析结果存储于数据库中,可通过SQL查询或仪表板工具进行可视化探索,支持城市生态与人类行为的多维度研究。
背景与挑战
背景概述
Ctrip.com社交媒体数据集诞生于2026年,由赫尔辛基大学数据科学课程第五小组创建,旨在通过多模态分析揭示城市自然环境中的人类互动模式。该数据集源自中国36个城市中720个代表性城市公园的众包数据,涵盖约85.4万条社交媒体文本与98.5万张图像,并附有地理标签与时间戳。其核心研究问题聚焦于利用计算机视觉与自然语言处理技术,从海量用户生成内容中提取关于城市自然景观的情感倾向、生物多样性及人类活动特征,为城市生态规划与公众行为研究提供了宝贵的实证基础。
当前挑战
该数据集致力于解决城市自然交互的多模态分析难题,其挑战首先体现在领域问题的复杂性上:需同时处理文本情感分析、图像中动植物细粒度物种识别以及人类活动识别等多重任务,对模型的跨模态理解与协同能力提出了极高要求。在构建过程中,研究者面临数据规模庞大且异构的挑战,包括从非结构化社交媒体内容中清洗、标注高质量样本,并设计高效管道集成BioClip、BERT与Qwen等异构模型,同时确保地理与时间元数据的一致性,以支撑可靠的空间时间分析。
常用场景
经典使用场景
在生态学与城市景观规划领域,Ctrip.com社交媒体数据集为研究人类与自然互动提供了宝贵资源。该数据集通过整合携程网用户在中国36个城市720个代表性城市公园发布的近百万条文本与图像数据,结合地理标签与时间戳,支持多模态分析。经典应用场景包括利用情感分析模型处理文本内容,识别用户对自然环境的情绪倾向;同时借助图像识别技术,自动检测图片中的人物、动植物类别,并对动植物进行细粒度物种鉴定,从而系统揭示城市公园中人类活动的模式及其与生物多样性的关联。
实际应用
在实际应用中,该数据集支持城市管理部门与规划机构优化公园设计与服务。例如,通过分析用户情感与活动识别结果,可评估不同公园设施的受欢迎程度,识别需要维护的自然区域;物种识别数据有助于监测城市生物多样性变化,为生态保护提供依据。此外,结合地理信息,能够可视化热门休闲区域与游客流动模式,辅助城市旅游推广与公共空间管理,提升居民与自然互动的质量。
衍生相关工作
基于该数据集的多模态分析框架,衍生了一系列经典研究工作。例如,利用BioClip模型进行细粒度物种识别,推动了计算机视觉在生态监测中的应用;结合BERT的情感分析扩展了环境感知研究的深度;Qwen模型的人类活动识别则丰富了行为生态学的数据维度。这些工作不仅提升了社交媒体数据在环境科学中的利用率,还为后续研究如城市热岛效应缓解、绿色基础设施评估等提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



