Bengali-English Code-Mixed Corpus
收藏arXiv2018-03-12 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1803.04000v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究创建了首个公开的Bengali-English代码混合语料库,用于情感分析。该数据集包含5000条从Twitter收集并经过筛选的代码混合数据,每条数据都带有语言和极性标签。数据集的创建过程涉及使用混合系统(结合规则基础和监督模型)进行语言和情感标签的自动标注,随后由一组标注者进行人工验证。该数据集主要用于解决印度多语言环境下的情感分析问题,特别是在社交媒体中普遍存在的代码混合现象。
提供机构:
SRM大学, 金奈; 贾达普布尔大学, 加尔各答
创建时间:
2018-03-12



