five

NLPC-UOM/Sinhala-English-Code-Mixed-Code-Switched-Dataset

收藏
Hugging Face2024-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/Sinhala-English-Code-Mixed-Code-Switched-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含10,000条针对僧伽罗语和英语混合代码的注释数据集,这些注释在句子级别上针对情感分析、幽默检测、仇恨言论检测、方面识别和语言识别任务进行了标注。标签方案包括:情感(积极、消极、中立、冲突)、幽默(幽默、非幽默)、仇恨言论(诱导仇恨、侮辱性、非攻击性)、方面(网络、账单或价格、套餐、客户服务、数据、服务或产品、无)、语言识别(僧伽罗语、英语、僧-英、英-僧、混合、命名实体、符号)。

This dataset contains 10,000 comments annotated at the sentence level for sentiment analysis, humor detection, hate speech detection, aspect identification, and language identification in Sinhala-English code-mixed language. The tag scheme includes: Sentiment (Positive, Negative, Neutral, Conflict), Humor (Humorous, Non humorous), Hate Speech (Hate-Inducing, Abusive, Not offensive), Aspect (Network, Billing or Price, Package, Customer Service, Data, Service or product, None), Language ID (Sinhala, English, Sin-Eng, Eng-Sin, Mixed, Named-Entity, Symbol).
提供机构:
NLPC-UOM
原始信息汇总

Sinhala-English-Code-Mixed-Code-Switched-Dataset 概述

数据集基本信息

  • 语言: 包含 Sinhala (si) 和 English (en)
  • 许可证: MIT
  • 多语言性: 多语言

数据集内容

  • 规模: 包含 10,000 条评论
  • 注释级别: 句子级别
  • 任务类别:
    • 文本分类
  • 具体任务:
    • 情感分析
    • 幽默检测
    • 仇恨言论检测
    • 语言识别
    • 方面识别

标签方案

  • 情感: 积极, 消极, 中性, 冲突
  • 幽默: 幽默, 非幽默
  • 仇恨言论: 引发仇恨, 辱骂, 非冒犯性
  • 方面: 网络, 账单或价格, 套餐, 客户服务, 数据, 服务或产品, 无
  • 语言 ID: 僧伽罗语, 英语, 僧英混合, 英僧混合, 混合, 命名实体, 符号
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作