Roman Urdu Dataset

github2023-08-26 更新2024-05-31 收录

下载链接：

https://github.com/Smat26/Roman-Urdu-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从多个电子商务网站的评论、公共Facebook页面上的评论以及Twitter账户中收集的句子。每条记录通常包含一个带有相应情感标签（正面、负面或中性）的句子。数据集包含超过20,000条手动标记的句子。

This dataset comprises sentences collected from reviews on multiple e-commerce websites, comments on public Facebook pages, and Twitter accounts. Each record typically includes a sentence accompanied by a corresponding sentiment label (positive, negative, or neutral). The dataset contains over 20,000 manually annotated sentences.

创建时间：

2019-01-05

原始信息汇总

Roman Urdu Dataset 概述

数据集内容

Dataset: 包含超过20,000条句子，来源于电子商务网站的评论、公共Facebook页面的评论以及Twitter账户。每条句子均附有情感标签，包括Negative, Positive, Neutral。
Dictionary: 提供罗马乌尔都语单词的英文释义。
Conversion: 包含语言间的转换，格式为 <English> : <Urdu> : <Roman-Urdu>。
Negative-and-Positive-Words: 用于情感分析的负面和正面词汇，格式为 <English> : <Roman-Urdu> : <POS-tag>。
Urdu-Names: 包含常见的乌尔都（巴基斯坦）名字列表。

数据集来源

主要数据来源于电子商务网站的评论、公共Facebook页面的评论以及Twitter账户。
其他数据来源于维基百科及多种在线资源。

贡献者

数据集的主要编纂者是Zareen Sharf。

许可证

本项目遵循GNU General Public License v3.0。

搜集汇总

数据集介绍

构建方式

Roman Urdu数据集的构建基于对多个电子商务网站评论、公共Facebook页面评论以及Twitter账户评论的收集与整理。每条数据记录通常包含一个独立的句子，并附有情感标签，如“负面”、“正面”或“中性”。此外，数据集还包括了罗马乌尔都语单词的英文释义、语言间的词汇转换、情感分析用的正负面词汇列表以及常见的乌尔都语（巴基斯坦）名字列表。所有数据均经过人工标注，确保了数据的准确性和可靠性。

特点

该数据集的一个显著特点是其广泛的应用范围和丰富的内容。它不仅包含了超过20,000条经过情感标注的句子，还提供了罗马乌尔都语与英语之间的词汇转换，以及用于情感分析的正负面词汇。这些特点使得该数据集在自然语言处理领域，尤其是在情感分析和语言转换研究中具有重要的应用价值。

使用方法

Roman Urdu数据集的使用非常灵活，适用于多种自然语言处理任务。研究人员和爱好者可以利用该数据集进行情感分析、语言模型训练、词汇转换等研究。使用该数据集时，建议遵循GNU通用公共许可证v3.0的规定，并在使用成果中适当引用原作者。此外，鼓励用户通过提交Pull Request或开Issue的方式贡献新的数据源或优化现有数据集，以促进该领域的进一步发展。

背景与挑战

背景概述

Roman Urdu数据集由Zareen Sharf等研究人员于近年创建，旨在解决乌尔都语自然语言处理（NLP）领域数据匮乏的问题。该数据集包含超过20,000条从电商网站评论、Facebook公共页面评论及Twitter账户中收集的句子，每条句子均附有情感标签（正面、负面或中性）。此外，数据集还提供了罗马化乌尔都语词汇的英语释义、语言间的词汇转换表以及用于情感分析的正面与负面词汇列表。该数据集的发布为乌尔都语NLP研究提供了重要资源，推动了该领域的发展。

当前挑战

Roman Urdu数据集在构建过程中面临多重挑战。首先，乌尔都语作为一种资源稀缺语言，缺乏高质量、大规模的标注数据，数据收集与标注过程耗时且复杂。其次，罗马化乌尔都语的书写形式多样，缺乏统一标准，增加了数据清洗与预处理的难度。此外，情感分析任务本身具有主观性，标注一致性难以保证。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与评估提出了更高要求。

常用场景

经典使用场景

Roman Urdu Dataset 在自然语言处理（NLP）领域中被广泛用于情感分析任务。该数据集包含了超过20,000条从电商网站评论、Facebook公共页面评论以及Twitter推文中收集的罗马乌尔都语句子，每条句子都附有情感标签（正面、负面或中性）。研究人员利用该数据集训练和评估情感分析模型，以识别和理解罗马乌尔都语文本中的情感倾向。

衍生相关工作

基于 Roman Urdu Dataset，许多经典的研究工作得以展开。例如，Kaggle平台上的一些竞赛项目利用该数据集进行情感分析模型的训练和评估。此外，该数据集还启发了更多关于罗马乌尔都语NLP的研究，如文本生成、语言模型构建以及跨语言翻译系统的开发。这些工作进一步推动了乌尔都语NLP领域的技术进步和应用扩展。

数据集最近研究