five

ccosme/FiReCS

收藏
Hugging Face2024-05-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ccosme/FiReCS
下载链接
链接失效反馈
官方服务:
资源简介:
FiReCS数据集是第一个包含菲律宾语和英语代码转换的产品和服务评论的情感标注语料库。该数据集包含10,487条评论,情感类别分布均衡,标注者间一致性高。数据集支持情感分析任务,特别是针对双语文本的代码转换/代码混合。数据集结构包括评论内容和情感标签,标签编码为2(积极)、1(中性)和0(消极)。数据集分为训练集和测试集,分别包含7,340条和3,147条评论。数据集创建过程中使用了Google Maps Reviews和Shopee Philippines的公开评论,并由三位母语为菲律宾语且英语流利的标注者进行手动标注。数据集不包含个人敏感信息,采用CC-BY-4.0许可证发布。

FiReCS数据集是第一个包含菲律宾语和英语代码转换的产品和服务评论的情感标注语料库。该数据集包含10,487条评论,情感类别分布均衡,标注者间一致性高。数据集支持情感分析任务,特别是针对双语文本的代码转换/代码混合。数据集结构包括评论内容和情感标签,标签编码为2(积极)、1(中性)和0(消极)。数据集分为训练集和测试集,分别包含7,340条和3,147条评论。数据集创建过程中使用了Google Maps Reviews和Shopee Philippines的公开评论,并由三位母语为菲律宾语且英语流利的标注者进行手动标注。数据集不包含个人敏感信息,采用CC-BY-4.0许可证发布。
提供机构:
ccosme
原始信息汇总

数据集概述

数据集名称

  • 名称: Filipino-English Reviews with Code-Switching (FiReCS)

数据集摘要

  • 描述: FiReCS是首个涉及菲律宾语-英语代码切换的情感标注产品和服务评论语料库。数据集包含10,487条评论,情感类别分布较为平衡。
  • 标注质量: 标注一致性高,Kripendorffs α值为0.83。
  • 标注过程: 由三名人类标注者根据三种极性类别(正、中、负)手动标注评论。

支持的任务

  • 任务: 双语文本的情感分析,涉及代码切换/混合。

语言

  • 语言: 菲律宾语、英语

数据集结构

  • 数据字段:
    • review: 包含评论主体的字符串
    • label: 包含由人类标注者提供的金标准标签的整数编码
  • 标签编码:
    • 2 - 正
    • 1 - 中
    • 0 - 负
  • 数据分割:
    • 训练集: 7,340条评论
    • 测试集: 3,147条评论

数据集创建和标注

  • 来源: 数据集基于Google Maps Reviews和Shopee Philippines的公开在线服务和产品评论。
  • 标注者: 三名母语为菲律宾语且英语流利的标注者。

许可证信息

  • 许可证: CC-BY-4.0

引用信息

  • 引用: Cosme, C.J., De Leon, M.M. (2024). Sentiment Analysis of Code-Switched Filipino-English Product and Service Reviews Using Transformers-Based Large Language Models. In: Iglesias, A., Shin, J., Patel, B., Joshi, A. (eds) Proceedings of World Conference on Information Systems for Business Management. ISBM 2023. Lecture Notes in Networks and Systems, vol 834. Springer, Singapore. https://doi.org/10.1007/978-981-99-8349-0_11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作