five

r/italy COVID-19 Usage Change Corpus

收藏
github2022-09-29 更新2024-05-31 收录
下载链接:
https://github.com/edoardosignoroni/usage_change_ITA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过从意大利Reddit子论坛(r/italy)抓取2019年1月30日至2020年11月30日的文本创建的。数据经过词形还原和预处理,并使用Gonen等人的方法分析以检测2019年至2020年间意大利语的短期使用变化。

This dataset was created by scraping text from the Italian Reddit subforum (r/italy) from January 30, 2019, to November 30, 2020. The data underwent lemmatization and preprocessing, and was analyzed using the method by Gonen et al. to detect short-term usage changes in the Italian language between 2019 and 2020.
创建时间:
2021-01-16
原始信息汇总

数据集概述

数据来源

  • 数据集名为 usage_change_ITA,通过爬取 Italian subreddit 在2019年1月30日至2020年11月30日期间的文本内容创建。
  • 使用 prawpsaw 进行数据爬取。

数据处理

  • 数据经过 Stanza 进行词形还原和预处理。
  • 分析方法采用 Gonen et al. 2020 提出的方法,用于检测2019年至2020年间意大利语的短期使用变化。

数据下载

算法输出

  • 使用变化检测算法的输出保存在文件 "detect_2019_2020_.txt" 中,该文件包含了词形还原后的语料库的结果。

数据可视化

  • 数据通过 Embedding Projector 进行可视化。
  • 可视化文件位于模型目录中,包括 tensors_[year].tsvtensors_[year]_meta.tsv
  • 可通过加载 tensors_[year]_bookmark.txt 使用已标记的数据(t-SNE,10000次迭代)。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对意大利Reddit社区(r/italy)在2019年1月30日至2020年11月30日期间的文本数据进行抓取。通过使用praw和psaw工具,研究人员从该社区中提取了大量用户提交的文本内容。随后,利用Stanza工具对文本进行了词形还原和预处理,并结合Gonen等人(2020)提出的方法,分析了意大利语在2019年至2020年期间的短期使用变化。
特点
该数据集的特点在于其专注于意大利语在COVID-19疫情期间的使用变化,涵盖了从疫情爆发前到疫情高峰期的广泛时间跨度。数据集不仅包含原始文本,还提供了经过词形还原和预处理的版本,便于研究人员进行深入的语言分析。此外,数据集还包含了基于Gonen等人算法的使用变化检测结果,为语言演变研究提供了重要参考。
使用方法
该数据集的使用方法包括下载原始和预处理数据,并通过Gonen等人的算法进行使用变化检测。研究人员还可以利用Embedding Projector工具对数据进行可视化分析。通过加载提供的tensors文件,用户可以运行降维算法或直接使用预标记的t-SNE结果,探索意大利语在疫情期间的语言变化模式。
背景与挑战
背景概述
italy COVID-19 Usage Change Corpus 数据集由意大利子论坛 Reddit 上的文本数据构建而成,时间跨度为2019年1月30日至2020年11月30日。该数据集旨在研究COVID-19疫情期间意大利语使用习惯的短期变化,特别是通过对比2019年和2020年的文本数据,揭示语言使用模式的变化趋势。数据集的构建基于Gonen等人(2020)提出的方法,结合了Stanza工具进行词形还原和预处理。该数据集为语言学家和社会科学家提供了宝贵资源,有助于深入理解全球性事件对语言使用的影响。
当前挑战
该数据集面临的主要挑战包括:首先,语言使用变化的检测需要高精度的文本预处理和分析方法,以确保结果的可靠性。其次,由于数据来源于社交媒体平台,文本的多样性和非规范性增加了数据清洗和标准化的难度。此外,COVID-19疫情的特殊背景使得语言变化可能受到多种复杂因素的影响,如何有效分离这些因素并准确捕捉语言变化趋势,是研究中的一大挑战。最后,数据集的构建依赖于自动化工具,如何确保工具在处理大规模数据时的稳定性和效率,也是需要解决的问题。
常用场景
经典使用场景
在语言学和社会科学领域,italy COVID-19 Usage Change Corpus 数据集被广泛用于研究意大利语在COVID-19疫情期间的短期使用变化。通过分析2019年和2020年意大利子论坛Reddit上的文本数据,研究者能够捕捉到疫情对语言使用的即时影响,尤其是在词汇选择和表达方式上的变化。
实际应用
在实际应用中,该数据集为政策制定者和社会科学家提供了宝贵的数据支持。通过分析疫情期间的语言变化,可以更好地理解公众对疫情的认知和反应,从而优化公共卫生信息的传播策略,提升公众对政策的理解和接受度。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究者利用该数据集进一步探索了语言变化与社会事件之间的关联,提出了新的语言变化检测算法,并开发了可视化工具,如Embedding Projector,以便更直观地展示语言变化的趋势和模式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作