KTS(Korean Tourist Spot) Dataset

github2023-07-18 更新2024-05-31 收录

下载链接：

https://github.com/DGU-AI-LAB/Korean-Tourist-Spot-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与韩国旅游景点相关的10个标签的数据，收集自Instagram。数据集提供了10,000张无用户敏感信息的图片、包含韩语和英语的文本、多个标签以及每张图片的点赞数。数据集分为完整版和分割版，分割版按照7:1:2的比例分为训练、验证和测试集。数据集设计为两级层次结构，分为人工景点和自然景观两大类，每类下各有五个细分类别。

This dataset comprises data related to 10 tags associated with South Korean tourist attractions, collected from Instagram. It offers 10,000 images devoid of user-sensitive information, texts in both Korean and English, multiple tags, and the number of likes for each image. The dataset is available in two versions: a complete version and a segmented version, with the latter divided into training, validation, and test sets in a 7:1:2 ratio. Designed with a two-tier hierarchical structure, the dataset categorizes the attractions into two main types: man-made attractions and natural landscapes, each further divided into five subcategories.

创建时间：

2019-05-09

原始信息汇总

Korean-Tourist-Spot-Dataset 概述

数据集内容

图像数据：包含10,000张与韩国旅游景点相关的图像，不包含用户敏感信息。
文本数据：包含韩语和英语组成的句子。
标签数据：包含多个标签。
互动数据：每张图像的点赞数。

数据集结构

版本：分为总版本和分割版本。总版本包含所有数据，分割版本按照7:1:2的比例分为训练集、验证集和测试集。

数据集分类

层次结构：数据集设计为两级层次结构。
- 粗分类：分为人造旅游景点和自然景观旅游景点。
- 细分类：每个粗分类下有5个细分类。
  - 人造旅游景点：
    - 游乐园
    - 宫殿
    - 公园
    - 塔
    - 餐厅
  - 自然景观旅游景点：
    - 海滩
    - 洞穴
    - 岛屿
    - 湖泊
    - 山脉

加载代码

Python：提供load_data.py文件。
Jupyter Notebook：提供load_data.ipynb文件。

前提条件

安装numpy库。

搜集汇总

数据集介绍

构建方式

KTS（Korean Tourist Spot）数据集的构建基于对韩国旅游景点的广泛数据收集，主要来源于Instagram平台。该数据集包含了10,000张无用户敏感信息的图片，以及相关的韩文和英文文本描述、多个标签和每张图片的点赞数。数据集分为完整版和分割版，其中分割版按照7:1:2的比例划分为训练集、验证集和测试集。数据集的构建采用了双层层次结构，首先将景点分为人造景点和自然景观两大类，每类下又细分为五个具体类别。

使用方法

使用KTS数据集时，用户可以通过提供的Python脚本或Jupyter Notebook文件加载数据。加载代码的依赖项仅需安装numpy库，确保了使用的便捷性。数据集的分割版可直接用于机器学习模型的训练、验证和测试，而完整版则适用于需要更多数据的场景。用户可以根据研究需求选择不同的数据版本，并通过调整代码参数灵活处理数据。

背景与挑战

背景概述

KTS（Korean Tourist Spot）数据集由韩国东国大学人工智能实验室于2019年创建，旨在为旅游景点相关的多模态研究提供支持。该数据集包含10,000张来自Instagram的图片，涵盖10个与韩国旅游景点相关的标签，并附带多语言文本描述、多个标签以及每张图片的点赞数。数据集采用两级层次结构，将景点分为人造景点和自然景观两大类，每类下又细分为五个子类。KTS数据集不仅为图像分类、文本分析等任务提供了丰富的多模态数据，还为跨语言、跨文化的研究提供了重要资源，推动了旅游领域的智能化应用发展。

当前挑战

KTS数据集在构建和应用过程中面临多重挑战。首先，数据来源的多样性和复杂性使得数据清洗和标注工作尤为困难，尤其是在处理多语言文本和用户生成内容时，如何确保数据的准确性和一致性成为关键问题。其次，数据集的层次化结构虽然增强了分类的灵活性，但也增加了模型训练的复杂性，特别是在处理粗粒度与细粒度标签之间的关系时，模型需要具备更强的泛化能力。此外，数据集的跨语言特性要求模型能够有效处理韩语和英语的混合文本，这对自然语言处理技术提出了更高的要求。最后，如何在保护用户隐私的前提下充分利用社交媒体数据，也是该数据集在构建过程中需要解决的重要问题。

常用场景

经典使用场景

KTS数据集广泛应用于旅游景点分类和推荐系统的研究中。通过分析来自Instagram的图片、文本和标签数据，研究者能够深入理解游客对不同类型景点的偏好和行为模式。该数据集的多语言文本和丰富的图像信息为跨文化研究提供了宝贵的资源。

解决学术问题

KTS数据集解决了旅游景点分类和推荐系统中的关键问题，如多模态数据融合和跨语言文本处理。通过提供详细的图像和文本数据，研究者能够开发出更精确的分类模型和个性化推荐算法，从而提升旅游体验和服务质量。

实际应用

在实际应用中，KTS数据集被用于开发智能旅游推荐系统，帮助游客根据个人兴趣和历史行为找到最合适的旅游景点。此外，该数据集还被用于市场分析，帮助旅游机构了解游客偏好，优化景点管理和营销策略。

数据集最近研究