Bengali-English Code-Mixed Corpus

Name: Bengali-English Code-Mixed Corpus
Creator: SRM大学, 金奈; 贾达普布尔大学, 加尔各答
Published: 2018-03-12 02:13:01
License: 暂无描述

arXiv2018-03-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1803.04000v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究创建了首个公开的Bengali-English代码混合语料库，用于情感分析。该数据集包含5000条从Twitter收集并经过筛选的代码混合数据，每条数据都带有语言和极性标签。数据集的创建过程涉及使用混合系统（结合规则基础和监督模型）进行语言和情感标签的自动标注，随后由一组标注者进行人工验证。该数据集主要用于解决印度多语言环境下的情感分析问题，特别是在社交媒体中普遍存在的代码混合现象。

提供机构：

SRM大学, 金奈; 贾达普布尔大学, 加尔各答

创建时间：

2018-03-12

5,000+

优质数据集

54 个

任务类型

进入经典数据集