SEACrowd/malaysia_tweets
收藏Malaysia Tweets 数据集概述
基本信息
- 名称: Malaysia Tweets
- 语言: 英语 (eng)
- 任务类别: 情感分析 (sentiment-analysis)
- 标签: 情感分析 (sentiment-analysis)
数据集描述
- 数据来源: 从马来西亚的推文中提取,关键词为 "social distancing" 和 "physical distancing"。
- 时间范围: 2020年1月至2021年7月。
- 数据处理: 使用 Python 模块 snscrape 提取推文,并使用 Polyglot 和 MALAYA NLP 工具自动获取情感标签。
支持的任务
- 情感分析
数据集使用
使用 datasets 库
python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/malaysia_tweets", trust_remote_code=True)
使用 seacrowd 库
python import seacrowd as sc
加载默认配置的数据集
dset = sc.load_dataset("malaysia_tweets", schema="seacrowd")
查看数据集的所有可用子集(配置名称)
print(sc.available_config_names("malaysia_tweets"))
使用特定配置加载数据集
dset = sc.load_dataset_by_config_name(config_name="<config_name>")
数据集版本
- 源版本: 1.0.0
- SEACrowd 版本: 2024.06.20
数据集许可证
- 许可证: 未知 (unknown)
引用
plaintext @InProceedings{10.1007/978-981-16-8515-6_44, author="Juan, Sarah Samson and Saee, Suhaila and Mohamad, Fitri", title="Social Versus Physical Distancing: Analysis of Public Health Messages at the Start of COVID-19 Outbreak in Malaysia Using Natural Language Processing", booktitle="Proceedings of the 8th International Conference on Computational Science and Technology", year="2022", publisher="Springer Singapore", pages="577--589", }
@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, journal={arXiv preprint arXiv: 2406.10118} }



