ukr-twi-corpus

github2023-06-01 更新2024-05-31 收录

下载链接：

https://github.com/saganoren/ukr-twi-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含1,854,993条乌克兰Twitter文本的数据集，以.csv格式提供，用于毒性文本检测等分析。

A dataset comprising 1,854,993 Ukrainian Twitter texts, provided in .csv format, intended for analysis such as toxic text detection.

创建时间：

2019-05-30

原始信息汇总

ukr-twi-corpus 数据集概述

数据集内容

corpus.tar.xz：包含1,854,993条乌克兰Twitter文本的预处理数据集，格式为.csv。
Corpus-Downloading.ipynb：Jupyter Notebook文件，提供数据集下载的指导。
Corpus-Filtering.ipynb：Jupyter Notebook文件，提供数据集文本过滤的指导。
twitter_scraper.py：Python脚本，用于数据集下载，基于Kenneth Reitz的twitter-scraper修改。

引用信息

Bobrovnyk K. (2019) "AUTOMATED BUILDING AND ANALYSIS OF UKRAINIAN TWITTER CORPUS FOR TOXIC TEXT DETECTION." 第三届国际会议COLINS 2019, 哈尔科夫, 乌克兰, 2019.

搜集汇总

数据集介绍

构建方式

ukr-twi-corpus数据集的构建过程依托于自动化工具与人工筛选相结合的策略。首先，通过修改自Kenneth Reitz的`twitter_scraper.py`脚本，从Twitter平台上抓取了大量乌克兰语推文。随后，利用Jupyter Notebook中的`Corpus-Downloading.ipynb`和`Corpus-Filtering.ipynb`文件，对原始数据进行下载与过滤，确保数据的纯净性与适用性。最终，数据集以`.csv`格式呈现，包含1,854,993条乌克兰语推文，为后续研究提供了坚实的基础。

特点

ukr-twi-corpus数据集以其规模庞大且专注于乌克兰语推文的特点脱颖而出。数据集不仅涵盖了近200万条推文，还通过严格的过滤机制确保了数据的语言纯度和内容质量。此外，数据集的构建过程透明且可复现，提供了详细的下载与过滤指南，便于研究者根据需求进行定制化处理。这一数据集为乌克兰语自然语言处理、社交媒体分析以及毒性文本检测等领域的研究提供了宝贵的资源。

使用方法

使用ukr-twi-corpus数据集时，研究者可通过解压`corpus.tar.xz`文件获取完整的推文数据。数据集以`.csv`格式存储，便于直接导入数据分析工具进行处理。对于希望从源头获取数据的用户，可运行`twitter_scraper.py`脚本，并结合`Corpus-Downloading.ipynb`和`Corpus-Filtering.ipynb`文件进行自定义抓取与筛选。这种灵活的使用方式使得数据集能够适应不同研究场景的需求，为乌克兰语文本分析提供了高效的支持。

背景与挑战

背景概述

ukr-twi-corpus数据集由Bobrovnyk K.于2019年创建，旨在为乌克兰语推特文本的自动构建与分析提供支持，特别是针对毒性文本检测的研究。该数据集包含1,854,993条乌克兰语推特文本，以CSV格式存储，并提供了下载和过滤文本的详细指南。其核心研究问题聚焦于如何从社交媒体平台中高效提取并处理大规模文本数据，以支持自然语言处理任务，如情感分析、毒性检测等。该数据集的发布为乌克兰语自然语言处理领域提供了重要的资源，推动了相关研究的发展。

当前挑战

ukr-twi-corpus数据集在构建过程中面临多重挑战。首先，社交媒体文本的多样性和非规范性增加了数据清洗和预处理的难度，尤其是乌克兰语的特殊语法结构和词汇变体。其次，推特数据的动态性和实时性要求高效的爬取和更新机制，以确保数据的时效性和完整性。此外，毒性文本的检测需要高精度的标注和分类方法，这对数据集的构建和后续分析提出了更高的技术要求。这些挑战不仅影响了数据集的构建效率，也对相关领域的研究提出了更高的标准。

常用场景

经典使用场景

ukr-twi-corpus数据集广泛应用于自然语言处理领域，特别是在社交媒体文本分析中。该数据集包含了大量乌克兰语的Twitter文本，为研究者提供了丰富的语言资源，用于训练和测试各种文本处理模型。其经典使用场景包括情感分析、主题建模以及语言模型的训练与评估。通过该数据集，研究者能够深入探讨乌克兰语在社交媒体上的使用特点及其变化趋势。

衍生相关工作

基于ukr-twi-corpus数据集，研究者们已经开展了多项经典工作。例如，在有毒文本检测领域，该数据集被用于训练和评估多种机器学习模型，显著提升了检测的准确性和效率。此外，该数据集还催生了多篇关于乌克兰语社交媒体文本分析的学术论文，进一步推动了自然语言处理技术在乌克兰语中的应用与发展。

数据集最近研究