Suomi24 corpus

github2023-12-10 更新2024-05-31 收录

下载链接：

https://github.com/Ahghaffari/suomi24_analysis

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用的数据集是通过从Suomi24平台收集数据创建的。数据集包含两部分，第一部分包含2001年至2017年的所有数据，第二部分包含2018年至2020年的数据。总共有20年的数据可用。数据集包含线程帖子的标题、评论以及每个帖子的许多特征，如作者姓名、日期时间、主题名称等。数据集的结构类似于YAML结构，但不是标准结构，因此需要解析器来解析和准备数据。

The dataset utilized in this study was created by collecting data from the Suomi24 platform. It comprises two parts: the first part includes all data from 2001 to 2017, and the second part contains data from 2018 to 2020. In total, there are 20 years of data available. The dataset includes the titles of thread posts, comments, and numerous features of each post, such as the author's name, date and time, topic name, etc. The structure of the dataset resembles a YAML structure but is not standard, thus requiring a parser to interpret and prepare the data.

创建时间：

2023-10-17

原始信息汇总

数据集概述

数据来源

数据集来自Suomi24平台，通过https://www.kielipankki.fi/corpora/suomi24/获取。

数据组成

数据集分为两部分：2001至2017年的数据和2018至2020年的数据，总计20年。
数据包括帖子、标题、评论及多种特征，如作者名、时间、话题名等。

数据结构

数据结构类似YAML，但非标准结构，需通过解析器处理。

数据处理

使用线程技术并行处理数据，以提高处理效率。
数据预处理包括去除数字、URL、表情符号和标点，使用NLTK库进行文本处理和词干提取。
关键词过滤使用预定义关键词“ilmastonmuutos”（气候变化）。

数据分析

使用CountVectorizer计算每年词汇量和总令牌数。
使用Matplotlib进行数据可视化，展示词汇量的年度变化。
应用Heaps Law和线性回归分析词汇增长。
分析关键词的共现词，使用NLTK库计算词频并排名。
使用热图展示共现词的频率随时间的变化。

主题建模

使用Latent Dirichlet Allocation (LDA)进行主题建模，分析每年文本数据。
实施情感分析，使用AFINN词典为芬兰语创建情感分析器，区分正负情感并进行主题建模。
考虑使用Non-Negative Matrix Factorization(NMF)和FinBERT作为先进方法进行主题建模。

搜集汇总

数据集介绍

构建方式

Suomi24语料库数据集通过从Suomi24平台收集数据构建而成，涵盖了2001年至2020年间的20年数据。数据集分为两部分，分别包含2001-2017年和2018-2020年的数据。数据以非标准的YAML结构存储，包含线程帖子、标题、评论以及作者、时间、主题等元数据。为高效解析数据，采用了多线程并行处理技术，逐行提取所需特征并保存，仅对主线程进行分析以满足项目需求。

特点

该数据集规模庞大，包含丰富的文本数据，涵盖了Suomi24平台上20年间的讨论内容。数据集不仅包含原始文本，还通过预处理步骤去除了数字、URL、表情符号和标点符号，并使用NLTK库进行分词和词干提取，特别是针对芬兰语的SnowballStemmer。此外，数据集还通过关键词过滤提取了与气候变化相关的讨论，便于特定主题的分析。数据集的结构化处理和丰富的元数据使其适用于多种文本分析任务。

使用方法

使用该数据集时，首先需通过`dataset_prepare.ipynb`代码进行预处理，将原始数据解析为CSV格式。随后，可利用`tasks.ipynb`代码对预处理后的数据进行进一步分析，如词汇量计算、共现词分析、主题建模等。数据集支持多种分析方法，包括Heaps' Law和Zipf's Law的验证、共现词频率统计、情感分析以及基于LDA和NMF的主题建模。用户可根据需求生成自定义的CSV文件，或直接使用提供的预处理数据进行分析。

背景与挑战

背景概述

Suomi24语料库数据集源自芬兰的Suomi24在线讨论平台，涵盖了2001年至2020年间的用户讨论数据。该数据集由芬兰语言资源中心（Kielipankki）创建，旨在为自然语言处理（NLP）研究提供丰富的芬兰语文本资源。数据集包含线程、帖子标题、评论以及作者信息、时间戳等多维度特征，结构上采用非标准的YAML格式，需通过特定解析器进行处理。Suomi24语料库为研究芬兰语的词汇增长、主题建模、情感分析等任务提供了重要支持，尤其在探索语言演化与社会话题关联性方面具有显著影响力。

当前挑战

Suomi24语料库的研究面临多重挑战。首先，数据规模庞大且结构复杂，需高效解析和处理，尤其是在未解压的ZIP文件中进行逐行解析，这对计算资源提出了较高要求。其次，芬兰语的形态复杂性和词汇多样性增加了文本预处理的难度，尤其是在词干提取和词汇统计任务中。此外，情感分析任务因缺乏针对芬兰语的成熟情感词典而受限，需依赖外部资源如AFINN词典的更新版本。最后，主题建模和共现词分析中，如何准确捕捉随时间变化的语言模式和话题演化，仍需更先进的算法如非负矩阵分解（NMF）和FinBERT的支持。

常用场景

经典使用场景

Suomi24语料库数据集在语言学和社会科学研究中具有广泛的应用。该数据集涵盖了2001年至2020年间芬兰最大的在线论坛Suomi24的讨论内容，包含大量用户生成的文本数据。研究者通常利用该数据集进行词汇增长分析、话题建模、情感分析以及语言规律验证（如Heaps' Law和Zipf's Law）。通过分析这些数据，学者能够深入理解芬兰语的语言演变、社会话题的变迁以及在线讨论的动态特征。

解决学术问题

Suomi24语料库为解决语言学和社会科学领域的多个关键问题提供了重要支持。首先，它帮助研究者验证语言统计规律，如Heaps' Law和Zipf's Law，从而揭示词汇增长与文本规模之间的关系。其次，通过话题建模和情感分析，该数据集为研究社会话题的演变和公众情绪的动态变化提供了数据基础。此外，它还支持跨年度的词汇和话题对比分析，为语言演变和社会趋势研究提供了丰富的实证材料。

衍生相关工作

基于Suomi24语料库，许多经典研究工作得以展开。例如，研究者利用该数据集开发了基于Latent Dirichlet Allocation（LDA）和Non-Negative Matrix Factorization（NMF）的话题建模方法，揭示了芬兰社会话题的年度演变。此外，结合AFINN词典的情感分析方法也被应用于分析芬兰语文本的情感倾向。近年来，FinBERT等预训练语言模型的引入进一步推动了该数据集在芬兰语自然语言处理中的应用，衍生出多项高质量的研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集