RideKE

Name: RideKE
Creator: 明尼苏达大学双城校区计算机科学与工程系
Published: 2025-02-10 14:18:07
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://github.com/NEtori21/Ride_hailing_ project

下载链接

链接失效反馈

官方服务：

资源简介：

RideKE数据集是一个包含超过29,000条推文的公共数据集，每条推文都进行了情感（积极、消极、中性）和情绪（挫折、快乐、愤怒、悲伤、同理心、恐惧、爱、惊讶）的分类。数据集主要由带有肯尼亚口音的英语构成（约70%），并混合了少量的斯瓦希里语和申语（30%）。该数据集是肯尼亚首个面向打车服务领域的代码转换情感和情绪数据集，为低资源语言领域的研究提供了资源。

The RideKE dataset is a public dataset containing over 29,000 Tweets, each annotated with sentiment labels (positive, negative, neutral) and emotion labels (frustration, joy, anger, sadness, empathy, fear, love, surprise). The dataset is predominantly composed of English with Kenyan accents, accounting for roughly 70% of the total content, with the remaining 30% being a small mix of Swahili and Sheng. This is the first code-switching sentiment and emotion dataset tailored for the ride-hailing service domain in Kenya, offering valuable research resources for low-resource language-related fields.

提供机构：

明尼苏达大学双城校区计算机科学与工程系

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

RideKE数据集的构建方式包括系统性地从Twitter上抓取与肯尼亚的拼车服务相关的推文，并利用snscrape Python库针对特定关键词（如#UBERKenya、#BOLT-kenya和#LITTLECAB）进行查询和检索。数据收集的时间跨度从2017年1月至2023年4月。在收集过程中，还获取了推文的元数据，包括用户参与度指标、用户账户详情和关系标记。此外，为了确保数据的一致性和准确性，还对数据进行了一系列预处理操作，包括文本标准化、清理和分词。

特点

RideKE数据集的特点在于其包含超过29,000条推文，这些推文涵盖了肯尼亚口音的英语，以及与斯瓦希里语和Sheng语混合的代码转换文本。数据集中的每条推文都被标记为正面、负面或中性的情感，以及挫折、快乐、愤怒、悲伤、同理心、恐惧、爱和惊喜等情绪。这使得RideKE成为肯尼亚拼车服务领域中第一个代码转换的情感和情绪数据集。此外，该数据集还采用了半监督学习方法进行情感和情绪分类，并与四种最先进的基于Transformer的预训练模型进行了比较。

使用方法

使用RideKE数据集的方法包括将其用于情感和情绪分析任务，例如创建能够从文本中预测情感状态的系统。该数据集可以应用于各种场景，例如衡量消费者满意度、自然灾害、营销策略、电子学习和电子商务。此外，RideKE数据集还可以用于研究预训练语言模型如何增强低资源语言和口音在现代NLP工具中的检测和表示。用户可以使用半监督学习方法来利用大量未标记的数据，以减少数据标注的成本，并提高模型的性能。

背景与挑战

背景概述

RideKE数据集是由明尼苏达大学双城分校计算机科学与工程学院的Naome A. Etori和Maria L. Gini创建的。该数据集旨在利用低资源、用户生成的Twitter内容，用于肯尼亚代码切换数据集中的情感和情绪检测。RideKE数据集的创建时间是2025年，它反映了非洲多语言多样性，尤其是肯尼亚丰富的语言遗产。肯尼亚拥有超过40种语言，主要分为班图语、尼罗特语和库希特语，这些语言在讲述、诗歌、歌曲和文学中发挥了重要作用。肯尼亚的官方语言是英语和斯瓦希里语，而Sheng语是一种融合了英语、斯瓦希里语和其他民族语言的混合语，最初在纳伊罗比的东兰斯贫民窟中使用，现在已经传播到各种社会和年龄群体中。RideKE数据集包含了超过29,000条推文，每条推文都被标注为积极、消极或中立，情感被标注为挫折、快乐、愤怒、悲伤、同情、恐惧、爱和惊讶。该数据集是肯尼亚首个在RHS领域内的代码切换情感和情绪数据集，为低资源地区提供了宝贵的资源。

当前挑战

RideKE数据集面临的挑战包括：1) 低资源语言数据的利用，由于内容稀缺、质量较差以及语言使用的主要变化，如俚语和代码切换，从Twitter上利用低资源语言数据具有挑战性；2) 构建过程中的挑战，包括数据收集、语言检测、数据预处理和数据标注。在情感分析中，XLM-R模型表现最好，但在情绪分析中，所有模型都倾向于预测中性情绪，并且Afri-BERT模型表现出最高的偏差和对同情情绪的独特敏感性。这些挑战表明，在低资源语言环境中，需要进一步研究和改进模型，以提高情感和情绪检测的准确性和泛化能力。

常用场景

经典使用场景

RideKE数据集主要用于研究低资源语言环境下的情感和情绪检测，特别是在肯尼亚这种多语言、多方言的环境中。该数据集包含了超过29,000条推文，涵盖了肯尼亚口音的英语、斯瓦希里语和Sheng语，并且每条推文都被标注为积极、消极或中立的情绪，以及愤怒、快乐、爱、恐惧等情绪。这使得RideKE数据集成为研究低资源语言环境下情感和情绪检测的重要资源。

衍生相关工作

RideKE数据集的发布为低资源语言环境下情感和情绪检测的研究提供了重要的数据资源，并激发了更多相关研究。例如，研究人员可以使用RideKE数据集来评估不同预训练模型在低资源语言情感和情绪检测中的性能，探索半监督学习在低资源语言情感和情绪检测中的应用，以及研究低资源语言环境下情感和情绪检测的挑战和机遇。此外，RideKE数据集还可以用于开发针对低资源语言的情感和情绪检测工具和系统，为低资源语言环境下的自然语言处理研究提供支持。

数据集最近研究