five

MultilingualDataset

收藏
github2022-08-16 更新2024-05-31 收录
下载链接:
https://github.com/enmili/multilingualDataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集从2014/2015年埃博拉疫情期间的Twitter提取,并手动标注为五个类别:疫情情况报告、信息发布、负面影响、负面信息、应急准备需求。数据集由三个子集组成,分别包含英语、葡萄牙语和日语的推文。

This dataset is extracted from Twitter during the Ebola outbreak in 2014/2015 and manually annotated into five categories: outbreak situation reports, information dissemination, negative impacts, negative information, and emergency preparedness needs. The dataset consists of three subsets, containing tweets in English, Portuguese, and Japanese respectively.
创建时间:
2018-03-22
原始信息汇总

数据集概述

数据集名称

MultilingualDataset

数据集来源

该数据集从2014/2015年埃博拉疫情期间的Twitter上提取。

数据集内容

数据集包含三种语言的推文,每种语言的数据集分为五个类别,每个类别对应一个文本文件。

类别定义

  1. class 0 - 疫情情况报告:关于新确认的埃博拉病例和死亡,以及宣布埃博拉自由国家的官方公告。
  2. class 1 - 信息性帖子:医院为埃博拉患者做准备,疫苗研究,病毒预防教育信息,捐款活动。
  3. class 2 - 负面影响:疫情造成的社会和经济影响。
  4. class 3 - 负面信息:对政府的批评,恐慌,种族主义。
  5. class 4 - 准备需求:医院、尸体袋、食物和安全葬礼协议的缺乏。

数据集组成

  • 英语数据集 - 包含1162条推文,分为五个文件:

    • class0.txt
    • class1.txt
    • class2.txt
    • class3.txt
    • class4.txt
  • 葡萄牙语数据集 - 包含246条推文,分为五个文件:

    • class0br.txt
    • class1br.txt
    • class2br.txt
    • class3br.txt
    • class4br.txt
  • 日语数据集 - 包含157条推文,分为五个文件:

    • class0jp.txt
    • class1jp.txt
    • class2jp.txt
    • class3jp.txt
    • class4jp.txt

数据集用途

用于机器学习研究。

搜集汇总
数据集介绍
main_image_url
构建方式
MultilingualDataset的构建基于2014/2015年埃博拉疫情期间的Twitter数据,通过人工标注的方式将数据划分为五个类别。这些类别涵盖了疫情报告、信息性帖子、负面影响、负面信息以及应对需求等多个维度。数据集包含英语、葡萄牙语和日语三种语言,每种语言的数据集均包含五个文件,分别对应五个类别。数据的收集和标注过程确保了其多样性和代表性,为多语言机器学习研究提供了坚实的基础。
特点
MultilingualDataset的特点在于其多语言性和主题的多样性。数据集涵盖了英语、葡萄牙语和日语三种语言,每种语言的数据均被细分为五个类别,反映了埃博拉疫情期间的不同社会反应和信息传播模式。这种多语言、多类别的结构使得该数据集特别适合用于跨语言文本分类、情感分析以及社会舆情研究等任务。此外,数据集的规模适中,便于研究人员进行快速实验和验证。
使用方法
MultilingualDataset的使用方法较为灵活,研究人员可以根据需要选择特定语言或类别进行分析。数据集中的每个文件对应一个类别,用户可以直接加载这些文件进行文本分类、情感分析或主题建模等任务。对于跨语言研究,可以将不同语言的数据集进行对比分析,探索语言间的差异和共性。此外,数据集的结构清晰,便于与其他机器学习框架或工具集成,支持进一步的数据预处理和模型训练。
背景与挑战
背景概述
MultilingualDataset数据集创建于2014年至2015年期间,正值埃博拉病毒爆发的高峰期。该数据集由研究人员从Twitter平台提取,并手动标注为五个类别,涵盖了疫情报告、信息性帖子、负面影响、负面信息以及应对需求等多个方面。数据集包含英语、葡萄牙语和日语三种语言的推文,分别对应不同的文化背景和社会反应。该数据集的主要研究问题在于如何通过多语言社交媒体数据,分析全球公共卫生事件中的信息传播模式及其社会影响。其研究成果对公共卫生政策制定、危机管理和多语言自然语言处理领域具有重要的参考价值。
当前挑战
MultilingualDataset数据集在构建过程中面临多重挑战。首先,数据采集的时效性和准确性是关键问题,尤其是在埃博拉疫情快速变化的背景下,确保数据的实时性和代表性至关重要。其次,多语言数据的标注需要跨语言和跨文化的专业知识,以确保类别划分的一致性和准确性。此外,推文的非正式语言表达、缩写和俚语增加了数据清洗和预处理的难度。在应用层面,如何利用该数据集进行多语言情感分析、信息分类以及跨文化比较研究,仍然是当前研究中的主要挑战。这些挑战不仅涉及技术层面的优化,还需要结合社会学和公共卫生领域的专业知识进行深入分析。
常用场景
经典使用场景
MultilingualDataset在自然语言处理领域中被广泛用于多语言文本分类任务的研究。该数据集通过提供英语、葡萄牙语和日语三种语言的推文数据,为研究者提供了一个多语言环境下的文本分析平台。特别是在公共卫生事件如埃博拉病毒爆发期间,该数据集能够帮助研究者理解和分类社交媒体上的信息传播模式。
解决学术问题
该数据集解决了多语言环境下文本分类的挑战,尤其是在公共卫生危机期间,如何准确分类和识别社交媒体上的信息类型。通过手动标注的五类推文,研究者可以训练和测试机器学习模型,以提高在多语言环境下的文本分类准确性和效率。这对于提升公共卫生事件的响应速度和信息管理具有重要意义。
衍生相关工作
基于MultilingualDataset,研究者们开发了多种多语言文本分类模型和算法。这些工作不仅推动了自然语言处理技术的发展,也为公共卫生领域的信息管理提供了新的解决方案。例如,一些研究利用该数据集训练深度学习模型,以提高在多种语言环境下的文本分类性能,这些模型已被应用于全球多个公共卫生监测系统中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作