tourism

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/mx-phd/tourism

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与法国巴斯克海岸旅游相关的多语言Twitter数据集，针对三个NLP任务进行了注释：情感分析、地点的命名实体识别以及细粒度主题概念提取。数据集采用CoNLL风格的TSV格式组织，并分为训练集、验证集和测试集。每个任务都有其各自的文件夹和相关文件。该数据集在知识共享署名-非商业性-相同方式共享4.0国际许可（CC BY-NC-SA 4.0）下发布。

创建时间：

2025-06-02

原始信息汇总

French Basque Coast Tourism Twitter Dataset 概述

数据集简介

多语言Twitter数据集，主题为法国巴斯克海岸旅游业
包含3个NLP任务的标注：
1. 情感分析
2. 地点命名实体识别
3. 细粒度主题概念抽取

数据集结构

按任务分为3个独立目录：
- sentiment_analysis/
- ner_location/
- thematic_concepts/
每个目录包含3个文件：
- train.tsv (~20%)
- dev.tsv (~20%)
- test.tsv (~60%)

数据格式

采用CoNLL风格的TSV格式
示例格式：

Token<TAB>Label
推文之间用空行分隔

标注详情

情感分析
- 任务类型：推文级情感标注
- 标签：Positive/Negative/Neutral
地点命名实体识别
- 任务类型：词元级位置标注
- 标注方案：BIO标记法
细粒度主题概念抽取
- 任务类型：词元级旅游概念标注
- 标注方案：BIO标记法
- 概念来源：基于世界旅游组织词表

许可信息

许可证：CC BY-NC-SA 4.0
使用限制：仅限非商业用途
要求：
- 必须署名
- 必须注明修改
- 衍生作品需采用相同许可

引用要求

使用本数据集需按规定格式引用

搜集汇总

数据集介绍

构建方式

该数据集聚焦于法国巴斯克海岸旅游领域的多语言推特数据，通过系统化的标注流程构建而成。数据采集自推特平台，覆盖旅游相关的多语言文本内容，采用专业标注团队进行三重标注任务：情感分析采用推文级标注策略，命名实体识别基于BIO标注体系定位地理位置，细粒度主题概念抽取则依据世界旅游组织主题词表进行概念标注。数据以CoNLL风格的TSV格式组织，严格遵循训练集(20%)、验证集(20%)和测试集(60%)的标准划分比例。

特点

作为旅游领域NLP研究的专业数据集，其核心价值体现在多任务协同标注架构上。情感分析维度捕捉游客情绪倾向，地理位置实体识别精确标注旅游相关场所，细粒度主题概念抽取则深入解构旅游文本语义。数据呈现多语言特性，标注体系融合领域知识(如世界旅游组织标准)，TSV格式设计确保与主流NLP工具链兼容。空白行分隔的推文存储方式兼顾可读性与处理效率，为跨语言旅游文本分析提供丰富的研究素材。

使用方法

研究者可通过HuggingFace平台获取该数据集，按任务类型访问三个独立子目录。使用前需理解CoNLL-TSV格式规范，其中每行包含词符与对应标签，推文间以空行间隔。针对不同NLP任务，可分别加载训练集进行模型训练，利用验证集调参，最终在测试集评估性能。特别需要注意的是，由于采用CC BY-NC-SA 4.0许可，任何非商业用途的衍生研究都必须保留原始授权信息，且修改内容需遵循相同许可协议共享。

背景与挑战

背景概述

French Basque Coast Tourism Twitter数据集聚焦于旅游领域的多语言社交媒体分析，由研究团队针对法国巴斯克海岸旅游相关推文构建而成。该数据集创建于社交媒体分析技术蓬勃发展的时期，旨在通过自然语言处理技术挖掘旅游领域的情感倾向、地理实体识别及细粒度主题概念抽取。数据集采用CoNLL风格的TSV格式，支持三项核心NLP任务，为旅游信息挖掘和跨语言处理研究提供了重要资源。其标注体系基于世界旅游组织主题词表，体现了旅游领域知识图谱构建的前沿探索。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，旅游推文特有的非正式表达、多语言混杂及地域性俚语增加了情感极性判断和实体识别的歧义性；细粒度主题标注需平衡旅游专业术语与日常用语的语义鸿沟。在构建过程中，推文数据的稀疏性与不均衡分布导致标注样本代表性不足，而旅游实体边界模糊（如复合地名）和主题概念的多层次性（如‘文化遗产’的嵌套子类）对标注一致性提出了更高要求。多任务协同标注时，如何保持三项任务标签体系的互斥性与完备性成为关键难题。

常用场景

经典使用场景

在旅游领域的情感分析和实体识别研究中，French Basque Coast Tourism Twitter数据集因其多语言特性和精细标注而备受青睐。该数据集常用于训练和评估自然语言处理模型，特别是在跨语言环境下对旅游相关文本的情感倾向、地理位置命名实体及细粒度主题概念的提取任务中展现出独特价值。研究者通过该数据集能够深入探索旅游领域文本的语义特征，为多语言NLP模型提供标准化的评估基准。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言旅游情感分析框架TourSent、基于注意力机制的旅游实体识别模型AttentiveTourNER，以及融合主题概念的旅游推荐系统TC-TRS。这些工作不仅推进了旅游计算领域的方法创新，其提出的多任务学习架构和领域自适应技术更被广泛应用于其他垂直领域的NLP研究中。

数据集最近研究