NLPC-UOM/Sinhala-English-Code-Mixed-Code-Switched-Dataset
收藏Hugging Face2024-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/Sinhala-English-Code-Mixed-Code-Switched-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含10,000条针对僧伽罗语和英语混合代码的注释数据集,这些注释在句子级别上针对情感分析、幽默检测、仇恨言论检测、方面识别和语言识别任务进行了标注。标签方案包括:情感(积极、消极、中立、冲突)、幽默(幽默、非幽默)、仇恨言论(诱导仇恨、侮辱性、非攻击性)、方面(网络、账单或价格、套餐、客户服务、数据、服务或产品、无)、语言识别(僧伽罗语、英语、僧-英、英-僧、混合、命名实体、符号)。
This dataset contains 10,000 comments annotated at the sentence level for sentiment analysis, humor detection, hate speech detection, aspect identification, and language identification in Sinhala-English code-mixed language. The tag scheme includes: Sentiment (Positive, Negative, Neutral, Conflict), Humor (Humorous, Non humorous), Hate Speech (Hate-Inducing, Abusive, Not offensive), Aspect (Network, Billing or Price, Package, Customer Service, Data, Service or product, None), Language ID (Sinhala, English, Sin-Eng, Eng-Sin, Mixed, Named-Entity, Symbol).
提供机构:
NLPC-UOM
原始信息汇总
Sinhala-English-Code-Mixed-Code-Switched-Dataset 概述
数据集基本信息
- 语言: 包含 Sinhala (si) 和 English (en)
- 许可证: MIT
- 多语言性: 多语言
数据集内容
- 规模: 包含 10,000 条评论
- 注释级别: 句子级别
- 任务类别:
- 文本分类
- 具体任务:
- 情感分析
- 幽默检测
- 仇恨言论检测
- 语言识别
- 方面识别
标签方案
- 情感: 积极, 消极, 中性, 冲突
- 幽默: 幽默, 非幽默
- 仇恨言论: 引发仇恨, 辱骂, 非冒犯性
- 方面: 网络, 账单或价格, 套餐, 客户服务, 数据, 服务或产品, 无
- 语言 ID: 僧伽罗语, 英语, 僧英混合, 英僧混合, 混合, 命名实体, 符号



