SEACrowd/dengue_filipino

Name: SEACrowd/dengue_filipino
Creator: SEACrowd
Published: 2024-06-24 13:30:24
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/dengue_filipino

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于低资源多标签分类的基准数据集，包含4,015个训练样本、500个测试样本和500个验证样本，每个样本被标记为五个类别中的一部分。每个样本可以属于多个类别。数据集收集自推特，语言为菲律宾语。

提供机构：

SEACrowd

原始信息汇总

Dengue Filipino 数据集概述

基本信息

名称: Dengue Filipino
语言: 菲律宾语 (fil)
任务类别: 领域知识多分类 (Domain Knowledge Multiclassification)
标签: 领域知识多分类

数据集详情

样本数量:
- 训练集: 4,015 条
- 测试集: 500 条
- 验证集: 500 条
类别数量: 5 类
样本特性: 每个样本可以属于多个类别
数据来源: 推文

使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/dengue_filipino", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("dengue_filipino", schema="seacrowd")

查看数据集的所有可用子集（配置名称）

print(sc.available_config_names("dengue_filipino"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

许可证: 未知 (Unknown)

引用

plaintext @INPROCEEDINGS{8459963, author={E. D. {Livelo} and C. {Cheng}}, booktitle={2018 IEEE International Conference on Agents (ICA)}, title={Intelligent Dengue Infoveillance Using Gated Recurrent Neural Learning and Cross-Label Frequencies}, year={2018}, volume={}, number={}, pages={2-7}, doi={10.1109/AGENTS.2018.8459963}} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在公共卫生信息学领域，SEACrowd/dengue_filipino数据集的构建体现了对低资源语言环境下多标签分类任务的深度关注。该数据集通过精心收集社交媒体平台上的推文内容，聚焦于登革热相关话题，形成了包含4,015条训练样本、500条测试样本及500条验证样本的基准集合。每条样本均被标注为五个类别中的一部分，且允许同时归属多个类别，这种多标签标注策略确保了数据在反映现实世界信息复杂性方面的科学性与实用性。

使用方法

在技术应用层面，该数据集可通过`datasets`库或专为东南亚语言设计的`seacrowd`库进行便捷加载。使用`datasets.load_dataset`函数并指定数据集名称即可获取完整数据；若需更细致的配置控制，`seacrowd`库提供了多配置选项，允许用户通过`available_config_names`查询可用子集，并按需加载特定配置。这种灵活的数据接口设计，显著降低了在低资源语言多标签分类研究中数据预处理与整合的技术门槛。

背景与挑战

背景概述

在公共卫生信息学领域，社交媒体数据已成为监测传染病传播的关键资源。Dengue Filipino数据集由研究人员E. D. Livelo和C. Cheng于2018年创建，旨在通过菲律宾语推文构建登革热疫情智能监控系统。该数据集聚焦于低资源多标签分类任务，包含4,015条训练样本及1,000条验证与测试样本，每条样本可关联至五个类别中的多个标签。其核心研究问题在于利用门控循环神经网络与跨标签频率分析，从非结构化文本中提取多维度的公共卫生信号，为东南亚语言自然语言处理与流行病学交叉研究提供了重要基准。

当前挑战

该数据集致力于解决公共卫生领域中的多标签文本分类挑战，尤其在低资源语言环境下，从社交媒体短文本中精准识别登革热相关多维信息（如症状、传播、预防等）存在显著难度。文本噪声大、标签共现频繁以及语境模糊性加剧了模型区分与泛化能力的不足。在构建过程中，研究人员面临数据采集与标注的双重挑战：菲律宾语推文的非正式表达与拼写变体增加了语义解析的复杂性；同时，多标签标注需要领域专家参与，以确保类别间边界清晰且符合医学逻辑，这对标注一致性与质量控制提出了较高要求。

常用场景

经典使用场景

在公共卫生信息学领域，Dengue Filipino数据集为低资源多标签分类任务提供了关键基准。该数据集源自社交媒体推文，包含4,015个训练样本及500个测试与验证样本，每个样本可同时归属于五个类别标签。其经典应用场景聚焦于利用自然语言处理技术，对菲律宾语文本进行细粒度分类，以识别与登革热相关的多维信息，如症状描述、疫情传播或预防措施等，从而支持自动化信息提取与知识发现。

解决学术问题

该数据集有效应对了低资源语言环境下多标签分类的学术挑战。传统研究常受限于标注数据稀缺与语言多样性不足，Dengue Filipino通过构建菲律宾语标注语料，为跨语言迁移学习、少样本学习及不平衡分类问题提供了实证基础。其多标签结构促进了模型对复杂语义关联的捕捉，推动了领域知识融合与分类算法优化，对提升边缘化语言社区的数字化健康监测能力具有深远意义。

实际应用

在实际应用中，Dengue Filipino数据集赋能公共卫生监测系统的智能化升级。通过分析社交媒体中的菲律宾语文本，系统可实时追踪登革热相关讨论，辅助疫情早期预警与舆情分析。该技术可集成至公共卫生平台，为决策者提供动态风险洞察，优化资源分配与干预策略。同时，其框架可扩展至其他传染病监测，增强全球卫生应急响应能力。

数据集最近研究