SEACrowd/shopee_reviews_tagalog

Name: SEACrowd/shopee_reviews_tagalog
Creator: SEACrowd
Published: 2024-06-24 13:26:05
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/shopee_reviews_tagalog

下载链接

链接失效反馈

官方服务：

资源简介：

Shopee评论数据集是通过从1到5星的评论中随机抽取2100个训练样本和450个测试和验证样本构建的，总共包含10500个训练样本和2250个验证和测试样本。该数据集支持情感分析任务，并且提供了使用`datasets`库和`seacrowd`库加载数据集的方法。数据集的语言包括菲律宾语（fil）和他加禄语（tgl）。

提供机构：

SEACrowd

原始信息汇总

Shopee Reviews Tagalog 数据集概述

数据集基本信息

名称: Shopee Reviews Tagalog
语言:
- 菲律宾语 (fil)
- 他加禄语 (tgl)
任务类别: 情感分析 (sentiment-analysis)
标签: 情感分析 (sentiment-analysis)
许可证: Mozilla Public License 2.0 (mpl-2.0)

数据集结构

训练样本: 10500 条
验证样本: 2250 条
测试样本: 2250 条
样本来源: 从1星到5星的评论中随机抽取，每星级的训练样本为2100条，验证和测试样本各450条。

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集加载方式

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/shopee_reviews_tagalog", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("shopee_reviews_tagalog", schema="seacrowd")

查看所有可用子集（配置名称）

print(sc.available_config_names("shopee_reviews_tagalog"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

引用

bibtex @article{riegoenhancement, title={Enhancement to Low-Resource Text Classification via Sequential Transfer Learning}, author={Riego, Neil Christian R. and Villarba, Danny Bell and Sison, Ariel Antwaun Rolando C. and Pineda, Fernandez C. and Lagunzad, Herminiño C.}, journal={United International Journal for Research & Technology}, volume={04}, issue={08}, pages={72--82} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在电子商务情感分析领域，Shopee Reviews Tagalog 数据集的构建体现了对低资源语言文本的精心采集与平衡处理。该数据集从Shopee平台随机抽取了用户评论，依据一星至五星的评分等级，每个等级分别选取2100条样本用于训练，450条样本用于测试与验证。总计形成10500条训练样本，以及各2250条的验证与测试样本，确保了数据分布的均衡性与代表性，为后续模型训练提供了稳固的基础。

特点

该数据集的核心特点在于其专注于菲律宾语（Tagalog）这一东南亚低资源语言，填补了该语言在情感分析任务中的资源空白。数据覆盖了从极端负面到极端正面的完整情感光谱，每个评分等级均具有等量的样本，避免了类别不平衡问题。此外，数据集以清晰的训练、验证和测试划分呈现，便于研究者直接应用于模型开发与评估，支持跨语言迁移学习与低资源文本分类的深入研究。

使用方法

研究者可通过两种便捷途径加载此数据集。利用 `datasets` 库，可直接调用 `load_dataset` 函数并指定数据集名称。若使用专为东南亚语言设计的 `seacrowd` 库，则能以 `seacrowd` 模式加载，或通过查询可用配置名称选择特定子集进行加载。加载后，数据集即可以标准格式用于情感分析模型的训练、验证与测试，为探索低资源语言的自然语言处理技术提供了即用型实验平台。

背景与挑战

背景概述

在自然语言处理领域，情感分析作为一项基础任务，其研究价值在于能够自动识别文本中蕴含的主观情感倾向。针对低资源语言，如菲律宾的塔加洛语，相关数据集的稀缺性长期制约着该领域模型的开发与应用。SEACrowd/shopee_reviews_tagalog数据集由SEACrowd团队于2024年构建并发布，旨在填补塔加洛语情感分析数据的空白。该数据集源自东南亚电商平台Shopee的用户评论，通过系统采样构建了包含10,500条训练样本及4,500条验证与测试样本的平衡语料，覆盖了从一星到五星的完整评分范围。其核心研究问题聚焦于提升低资源语言文本分类的性能，通过提供高质量标注数据，为跨语言迁移学习与领域适应研究提供了重要支撑，显著推动了东南亚语言自然语言处理技术的发展。

当前挑战

该数据集致力于解决塔加洛语情感分析这一具体领域问题，其首要挑战在于低资源语言本身的数据稀疏性与标注成本高昂，导致模型训练易受数据偏差影响，难以捕捉语言的细微情感表达。在构建过程中，研究人员面临数据采集与清洗的复杂性，需从嘈杂的电商评论中提取高质量文本，并确保评分分布的均衡性以避免类别不平衡。同时，塔加洛语的语言特性，如混合代码使用与口语化表达，增加了文本归一化与情感标注的难度，要求标注者具备深厚的语言文化知识。这些挑战共同指向了低资源语言数据处理中普遍存在的代表性不足与质量保障问题。

常用场景

经典使用场景

在自然语言处理领域，情感分析作为一项基础任务，旨在从文本中自动识别用户的情感倾向。Shopee Reviews Tagalog数据集以其精心构建的Tagalog语言评论样本，为研究者提供了一个标准化的实验平台。该数据集包含从1星到5星的评分标签，共计10500个训练样本和4500个验证与测试样本，其平衡的类别分布使得模型能够全面学习不同情感强度的表达模式。经典使用场景包括训练和评估情感分类模型，特别是在低资源语言环境下，该数据集通过提供高质量的标注数据，支持模型从数据中捕捉Tagalog特有的语言结构和情感表达方式，从而推动跨语言情感分析技术的发展。

实际应用

在实际商业环境中，电商平台依赖用户反馈来优化产品和服务。Shopee Reviews Tagalog数据集源自真实的Shopee电商评论，直接反映了Tagalog使用者的购物体验和情感表达。该数据集可应用于构建自动化情感分析系统，帮助电商企业实时监控产品评价，识别用户满意度趋势，从而指导库存管理、营销策略和客户服务改进。例如，通过分析评论中的情感倾向，企业可以快速发现产品问题或受欢迎特性，提升用户体验并增强市场竞争力。这种应用不仅限于电商，还可扩展至社交媒体监控、品牌声誉管理等领域，为Tagalog语区的商业智能提供数据驱动支持。

衍生相关工作

围绕Shopee Reviews Tagalog数据集，学术界已衍生出多项经典研究工作。例如，在《Enhancement to Low-Resource Text Classification via Sequential Transfer Learning》一文中，研究者利用该数据集探索了顺序迁移学习在低资源文本分类中的应用，验证了跨语言知识转移的有效性。此外，SEACrowd项目将该数据集纳入其多语言多模态数据枢纽，作为东南亚语言基准测试套件的一部分，促进了区域语言的标准化评估。这些工作不仅拓展了数据集的用途，还催生了针对Tagalog语言的情感分析模型优化、跨语言预训练策略以及低资源NLP方法论的研究，为后续学者提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集