covid19mx-corpus

github2023-04-05 更新2024-05-31 收录

COVID-19

墨西哥疫情

数据链接：

https://github.com/jormtz/covid19mx-corpus 数据链接链接失效反馈

官方服务：

资源简介：

包含墨西哥每日关于冠状病毒COVID-19的速记版本的语料库，由Hugo López-Gatell提供，数据集中的每个文档以发布日期命名，如2020-02-28.txt。数据集定期在每周一更新，涵盖了2020年2月至2021年2月期间的信息。

This corpus comprises daily shorthand versions of COVID-19 updates from Mexico, provided by Hugo López-Gatell. Each document in the dataset is named according to its release date, such as 2020-02-28.txt. The dataset is updated weekly on Mondays and covers information from February 2020 to February 2021.

创建时间：

2020-04-13

原始信息汇总

covid19mx-corpus 数据集概述

数据集内容

主题: 包含墨西哥关于冠状病毒 COVID-19 的每日简报的速记版本，由 Hugo López-Gatell 提供。
文件格式: 每个速记版本对应一个文本文件，文件名以发布日期命名（例如 2020-02-28.txt）。
内容特点: 目前文件中保留了提及对话者的内容（例如 HUGO LÓPEZ-GATELL RAMÍREZ, SUBSECRETARIO DE PREVENCIÓN Y PROMOCIÓN DE LA SALUD），可通过正则表达式轻松识别和/或删除。

数据集更新

更新频率: 每周一更新。
时间范围: 包含2020年2月至2021年2月期间发布的简报。

数据集创建与维护

创建工具: 使用 R 语言及 tidyverse, selectr, xml2, rvest 包创建。
代码与资源: 用于构建数据集的代码位于 scraper.R 文件中，完整的 URL 列表存储在 urls_informes.txt 文件中。

数据集使用许可

许可类型: 本数据集内容遵循 Creative Commons CC BY 4.0 许可。

数据集探索工具

无需编程: 推荐使用 Voyant Tools 或 AntConc 进行数据集探索。

搜集汇总

数据集介绍

构建方式

covid19mx-corpus数据集的构建基于墨西哥总统府网站上发布的每日COVID-19疫情报告。这些报告由Hugo López-Gatell提供，涵盖了2020年2月至2021年2月的时间段。数据集通过R语言及其相关包（如`tidyverse`、`xml2`和`rvest`）进行自动化抓取和整理，确保了数据的及时更新和格式的统一性。每个报告以文本文件形式存储，文件名对应其发布日期，便于用户按时间顺序检索和分析。

特点

该数据集的特点在于其全面性和时效性，涵盖了墨西哥COVID-19疫情的关键时期。每个文本文件保留了原始报告中的对话者信息，如发言人的姓名和职位，这为研究提供了丰富的上下文信息。此外，数据集的更新频率为每周一，确保了数据的持续性和可用性。文本格式的设计也使得用户能够轻松使用正则表达式进行进一步的数据清洗和分析。

使用方法

covid19mx-corpus数据集的使用方法灵活多样。用户可以直接下载文本文件进行本地分析，或利用提供的R脚本进行自动化处理。对于非编程用户，推荐使用Voyant Tools或AntConc等工具进行可视化探索和文本分析。数据集遵循Creative Commons CC BY 4.0许可，允许用户自由使用、修改和分享，只需注明原始来源即可。

背景与挑战

背景概述

covid19mx-corpus数据集聚焦于墨西哥COVID-19疫情的官方报告，收录了由墨西哥卫生部副部长Hugo López-Gatell在2020年2月至2021年2月期间发布的每日疫情通报的速记文本。该数据集由墨西哥总统府网站公开发布，并通过R语言及其相关包（如`tidyverse`、`xml2`等）进行自动化抓取与整理。其核心研究问题在于通过文本分析技术，挖掘疫情通报中的关键信息，为公共卫生政策制定和疫情传播研究提供数据支持。该数据集不仅为墨西哥的疫情研究提供了宝贵资源，也为全球范围内的疫情文本分析研究提供了参考。

当前挑战

covid19mx-corpus数据集在构建与应用中面临多重挑战。首先，文本数据中包含大量与发言人相关的冗余信息（如姓名与职务），需通过正则表达式等技术手段进行清洗，以确保数据的纯净性与可用性。其次，疫情通报文本的语言风格多样，涉及专业术语与口语化表达，这对自然语言处理模型的泛化能力提出了较高要求。此外，数据的时效性与更新频率也对研究者的实时分析能力构成挑战。最后，如何在保护隐私的前提下，充分利用公开数据，也是该数据集在应用过程中需要权衡的问题。

常用场景

经典使用场景

covid19mx-corpus数据集主要用于分析墨西哥政府在COVID-19疫情期间的官方通报内容。研究者可以通过该数据集进行文本挖掘，分析政府在不同阶段的疫情应对策略、信息透明度以及公众沟通方式的变化。这一数据集为研究公共卫生危机中的政府沟通提供了宝贵的文本资源。

衍生相关工作

基于covid19mx-corpus数据集，研究者已经开展了多项相关工作，包括开发文本分析工具、构建疫情信息传播模型以及研究政府沟通对公众行为的影响。这些工作不仅深化了对COVID-19疫情期间政府沟通的理解，还为未来应对类似公共卫生危机提供了宝贵的经验和工具。

数据集最近研究