nlp-dataset/Sinhala-English-Code-Mixed-Code-Switched-Hotel-Reviews-Dataset

Name: nlp-dataset/Sinhala-English-Code-Mixed-Code-Switched-Hotel-Reviews-Dataset
Creator: nlp-dataset
Published: 2026-05-01 12:58:55
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nlp-dataset/Sinhala-English-Code-Mixed-Code-Switched-Hotel-Reviews-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit ---

提供机构：

nlp-dataset

搜集汇总

数据集介绍

构建方式

该数据集聚焦于斯里兰卡地区酒店评论中僧伽罗语与英语混合使用的现象，通过从在线旅游平台收集真实用户评论，逐条标注语言混合类型与情感倾向。构建过程遵循严格的语言学准则，由双语专家团队执行标注，确保代码混合边界的准确识别。

使用方法

数据集以标准CSV格式发布，包含评论文本、语言标签及情感标签三列。可用于训练代码混合语言的情感分类模型及语言识别系统。推荐使用90%数据调优模型，余10%作为测试集。适用于transformer架构，需配合僧伽罗语-英语双语言词表对文本进行子词切分。

背景与挑战

背景概述

在自然语言处理领域，代码混合（Code-Mixing）与代码切换（Code-Switching）现象在双语或多语社区中极为常见，尤其在社交媒体、用户评论等非正式文本中频繁出现。Sinhala-English-Code-Mixed-Code-Switched-Hotel-Reviews-Dataset是首个聚焦僧伽罗语与英语混合文本的酒店评论数据集，由斯里兰卡的研究团队于近期创建，旨在填补低资源语言在代码混合研究中的空白。该数据集的核心研究问题是如何有效处理僧伽罗语与英语混合的序列标注与语义分析任务，例如情感识别、语言边界检测等。作为南亚语言处理领域的重要资源，它推动了低资源语言代码混合系统的开发，尤其为斯里兰卡旅游行业的用户生成内容分析提供了基础数据支持，对多语言自然语言处理技术的地域化落地具有显著影响力。

当前挑战

该数据集主要面临的领域问题挑战包括：1）代码混合语言中的句法不确定性，例如僧伽罗语与英语的语序、标点与语法规则差异导致标注歧义，传统单语模型难以直接迁移；2）数据稀疏性问题，僧伽罗语作为低资源语言，词汇覆盖度有限且拼写变体丰富，增大了词性标注与语言识别的复杂度。在构建过程中，研究团队需克服：1）注释标准制定的困难，需兼顾两种语言的语法规范与混合场景下的语义一致性；2）数据隐私与质量控制的矛盾，酒店评论涉及用户隐私且口语化表达多，需在匿名化处理同时保持文本的自然性与多样性；3）缺乏现成的代码混合标注工具，需人工核验并设计多轮一致性检验流程，确保标注信度与效度。

常用场景

经典使用场景

在自然语言处理领域，该数据集主要服务于代码混合与代码转换文本的分析与建模任务。作为一种典型的低资源语言混合场景，僧伽罗语与英语的混合酒店评论数据为研究多语言交互下的语义理解、情感分析及语言结构切换提供了宝贵的语料资源。研究者常利用该数据集训练语言识别模型、序列标注模型以及端到端的混合语言分类器，以揭示不同语言成分在特定语境中的分布规律与交互模式。

解决学术问题

该数据集有效填补了僧伽罗语与英语代码混合语料稀缺的空白，解决了低资源混合语言场景下情感分析与意图识别等经典学术难题。通过提供真实的酒店评论数据，研究者能够深入探究代码转换现象对传统自然语言处理方法的挑战，例如词汇级别的语言边界模糊、句法结构的不规则性以及情感表达的跨语言迁移问题。这些研究对于理解多语言社会中的语言使用习惯、推动低资源语言技术发展具有重要的理论意义与实践价值。

实际应用

在实际应用层面，该数据集可被用于构建面向斯里兰卡等僧伽罗语地区的智能客服系统与情感分析工具，帮助酒店行业自动化处理用户反馈、识别客户满意度及服务改进点。此外，代码混合文本理解能力还能赋能社交媒体分析、旅游推荐引擎以及跨语言舆情监测平台，使得多语言用户群体的声音得以精准捕捉与量化分析，从而提升商业决策的智能化水平。

数据集最近研究