five

SEACrowd/malaysia_tweets

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/malaysia_tweets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从马来西亚提取的基于关键词social distancing和physical distancing的推文,用于分析COVID-19疫情期间公众对健康信息的看法。数据收集时间从2020年1月到2021年7月,使用了Python模块snscrape进行数据提取,并使用Polyglot和MALAYA NLP工具进行情感分析。数据集支持情感分析任务,并且可以通过`datasets`库或`seacrowd`库加载。数据集的许可证未知,语言包括英语和马来语。

This dataset contains tweets extracted from Malaysia based on the keywords social distancing and physical distancing, used to analyze public opinions on health messages during the COVID-19 pandemic. The data was collected from January 2020 to July 2021, using the Python module snscrape for data extraction and Polyglot and MALAYA NLP tools for sentiment analysis. The dataset supports sentiment analysis tasks and can be loaded using the `datasets` library or the `seacrowd` library. The datasets license is unknown, and the languages include English and Malay.
提供机构:
SEACrowd
原始信息汇总

Malaysia Tweets 数据集概述

基本信息

  • 名称: Malaysia Tweets
  • 语言: 英语 (eng)
  • 任务类别: 情感分析 (sentiment-analysis)
  • 标签: 情感分析 (sentiment-analysis)

数据集描述

  • 数据来源: 从马来西亚的推文中提取,关键词为 "social distancing" 和 "physical distancing"。
  • 时间范围: 2020年1月至2021年7月。
  • 数据处理: 使用 Python 模块 snscrape 提取推文,并使用 Polyglot 和 MALAYA NLP 工具自动获取情感标签。

支持的任务

  • 情感分析

数据集使用

使用 datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/malaysia_tweets", trust_remote_code=True)

使用 seacrowd

python import seacrowd as sc

加载默认配置的数据集

dset = sc.load_dataset("malaysia_tweets", schema="seacrowd")

查看数据集的所有可用子集(配置名称)

print(sc.available_config_names("malaysia_tweets"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

  • 源版本: 1.0.0
  • SEACrowd 版本: 2024.06.20

数据集许可证

  • 许可证: 未知 (unknown)

引用

plaintext @InProceedings{10.1007/978-981-16-8515-6_44, author="Juan, Sarah Samson and Saee, Suhaila and Mohamad, Fitri", title="Social Versus Physical Distancing: Analysis of Public Health Messages at the Start of COVID-19 Outbreak in Malaysia Using Natural Language Processing", booktitle="Proceedings of the 8th International Conference on Computational Science and Technology", year="2022", publisher="Springer Singapore", pages="577--589", }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作