r/italy COVID-19 Usage Change Corpus

github2022-09-29 更新2024-05-31 收录

下载链接：

https://github.com/edoardosignoroni/usage_change_ITA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过从意大利Reddit子论坛（r/italy）抓取2019年1月30日至2020年11月30日的文本创建的。数据经过词形还原和预处理，并使用Gonen等人的方法分析以检测2019年至2020年间意大利语的短期使用变化。

This dataset was created by scraping text from the Italian Reddit subforum (r/italy) from January 30, 2019, to November 30, 2020. The data underwent lemmatization and preprocessing, and was analyzed using the method by Gonen et al. to detect short-term usage changes in the Italian language between 2019 and 2020.

创建时间：

2021-01-16

原始信息汇总

数据集概述

数据来源

数据集名为 usage_change_ITA，通过爬取 Italian subreddit 在2019年1月30日至2020年11月30日期间的文本内容创建。
使用 praw 和 psaw 进行数据爬取。

数据处理

数据经过 Stanza 进行词形还原和预处理。
分析方法采用 Gonen et al. 2020 提出的方法，用于检测2019年至2020年间意大利语的短期使用变化。

数据下载

原始数据和预处理后的数据可在此下载：Google Drive 链接

算法输出

使用变化检测算法的输出保存在文件 "detect_2019_2020_.txt" 中，该文件包含了词形还原后的语料库的结果。

数据可视化

数据通过 Embedding Projector 进行可视化。
可视化文件位于模型目录中，包括 tensors_[year].tsv 和 tensors_[year]_meta.tsv。
可通过加载 tensors_[year]_bookmark.txt 使用已标记的数据（t-SNE，10000次迭代）。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对意大利Reddit社区（r/italy）在2019年1月30日至2020年11月30日期间的文本数据进行抓取。通过使用praw和psaw工具，研究人员从该社区中提取了大量用户提交的文本内容。随后，利用Stanza工具对文本进行了词形还原和预处理，并结合Gonen等人（2020）提出的方法，分析了意大利语在2019年至2020年期间的短期使用变化。

特点

该数据集的特点在于其专注于意大利语在COVID-19疫情期间的使用变化，涵盖了从疫情爆发前到疫情高峰期的广泛时间跨度。数据集不仅包含原始文本，还提供了经过词形还原和预处理的版本，便于研究人员进行深入的语言分析。此外，数据集还包含了基于Gonen等人算法的使用变化检测结果，为语言演变研究提供了重要参考。

使用方法

该数据集的使用方法包括下载原始和预处理数据，并通过Gonen等人的算法进行使用变化检测。研究人员还可以利用Embedding Projector工具对数据进行可视化分析。通过加载提供的tensors文件，用户可以运行降维算法或直接使用预标记的t-SNE结果，探索意大利语在疫情期间的语言变化模式。

背景与挑战

背景概述

italy COVID-19 Usage Change Corpus 数据集由意大利子论坛 Reddit 上的文本数据构建而成，时间跨度为2019年1月30日至2020年11月30日。该数据集旨在研究COVID-19疫情期间意大利语使用习惯的短期变化，特别是通过对比2019年和2020年的文本数据，揭示语言使用模式的变化趋势。数据集的构建基于Gonen等人（2020）提出的方法，结合了Stanza工具进行词形还原和预处理。该数据集为语言学家和社会科学家提供了宝贵资源，有助于深入理解全球性事件对语言使用的影响。

当前挑战

该数据集面临的主要挑战包括：首先，语言使用变化的检测需要高精度的文本预处理和分析方法，以确保结果的可靠性。其次，由于数据来源于社交媒体平台，文本的多样性和非规范性增加了数据清洗和标准化的难度。此外，COVID-19疫情的特殊背景使得语言变化可能受到多种复杂因素的影响，如何有效分离这些因素并准确捕捉语言变化趋势，是研究中的一大挑战。最后，数据集的构建依赖于自动化工具，如何确保工具在处理大规模数据时的稳定性和效率，也是需要解决的问题。

常用场景

经典使用场景

在语言学和社会科学领域，italy COVID-19 Usage Change Corpus 数据集被广泛用于研究意大利语在COVID-19疫情期间的短期使用变化。通过分析2019年和2020年意大利子论坛Reddit上的文本数据，研究者能够捕捉到疫情对语言使用的即时影响，尤其是在词汇选择和表达方式上的变化。

实际应用

在实际应用中，该数据集为政策制定者和社会科学家提供了宝贵的数据支持。通过分析疫情期间的语言变化，可以更好地理解公众对疫情的认知和反应，从而优化公共卫生信息的传播策略，提升公众对政策的理解和接受度。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究者利用该数据集进一步探索了语言变化与社会事件之间的关联，提出了新的语言变化检测算法，并开发了可视化工具，如Embedding Projector，以便更直观地展示语言变化的趋势和模式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集