Colloquial Persian Corpus from Telegram

github2023-12-06 更新2024-05-31 收录

下载链接：

https://github.com/rezhv/Persian_text_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从公共Telegram频道中抓取的口语波斯语语料库，是目前最大的同类数据集。它提供了丰富的波斯语对话数据，适用于自然语言处理和语言学研究。

This dataset is a corpus of spoken Persian language scraped from public Telegram channels, representing the largest dataset of its kind to date. It offers a rich collection of Persian conversational data, suitable for natural language processing and linguistic research.

创建时间：

2023-12-06

原始信息汇总

数据集概述

本数据集名为“Colloquial Persian Corpus from Telegram”，是目前最大的波斯语口语语料库，从公共Telegram频道中精心收集而来。该数据集适用于自然语言处理和语言学研究等多种应用。

数据集详情

数据来源

数据来源于Telegram的公共频道，由专业团队识别和筛选相关内容。

数据集统计

最大可用语料库
文档平均长度: 46个词
文档数量: 188,874,296
采集频道数量: 58,000
未压缩大小: 123 GB
频道列表: 包含在channels.json中

数据收集方法

使用Python脚本通过Telegram API进行数据收集。脚本从channels.json中列出的公共频道系统地抓取消息，并通过转发的消息发现新频道。收集的数据以CSV格式存储。

数据集访问

完整数据集可通过此链接获取。

使用目的

该数据集主要用于学术研究，包括自然语言处理、计算语言学和机器学习等领域。适用于语言模型、情感分析、口语语言研究等。

引用方式

如在研究中使用此数据集，请按以下方式引用： [Alireza Havaei], (2023). Colloquial Persian Corpus from Telegram. [Online]. Available: https://github.com/rezhv/Persian_text_corpus/

搜集汇总

数据集介绍

构建方式

Colloquial Persian Corpus from Telegram 数据集的构建基于Telegram公共频道中的波斯语对话数据。通过Python脚本调用Telegram API，系统地从58,000个公共频道中抓取消息，并利用转发消息发现新频道。抓取的数据以CSV格式存储，每个频道对应一个文件。这一自动化且全面的方法确保了数据的广泛覆盖和高时效性。

使用方法

该数据集适用于学术研究和开发，特别是在自然语言处理、计算语言学和机器学习领域。研究人员可利用其进行语言模型训练、情感分析、口语语言研究等任务。数据集可通过Google Drive链接访问，使用时应遵循学术规范，并在相关研究中引用数据集来源。

背景与挑战

背景概述

Colloquial Persian Corpus from Telegram 数据集由Alireza Havaei等人于2023年创建，是目前最大的波斯语口语语料库之一。该数据集从Telegram的公共频道中系统性地收集了大量波斯语对话数据，涵盖了超过188,874,296条文档，涉及58,000个频道，数据规模达到123GB。该语料库的构建旨在为自然语言处理、计算语言学以及机器学习领域的研究提供丰富的资源，特别是在波斯语的语言模型、情感分析以及口语研究方面具有重要价值。其广泛的数据覆盖和自动化收集方法为波斯语的语言学研究开辟了新的方向。

当前挑战

Colloquial Persian Corpus from Telegram 数据集在构建过程中面临多重挑战。首先，波斯语作为一种复杂的语言，其口语表达形式多样且包含大量非正式词汇和语法结构，这对数据的标注和处理提出了较高要求。其次，从Telegram平台收集数据时，需确保数据的合法性和隐私保护，避免涉及敏感信息。此外，由于Telegram频道的动态性和多样性，数据收集过程中需要不断更新频道列表并处理大量非结构化数据，这对数据清洗和存储提出了技术挑战。最后，如何确保数据的代表性和多样性，避免数据偏差，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，Colloquial Persian Corpus from Telegram数据集被广泛用于训练和评估波斯语语言模型。由于其包含大量来自Telegram公共频道的非正式对话数据，该数据集特别适合用于研究波斯语的口语表达和日常用语。研究人员可以利用这些数据来开发更准确的波斯语文本生成、机器翻译和语音识别系统。

解决学术问题

该数据集解决了波斯语自然语言处理研究中数据稀缺的问题。通过提供大规模的、真实的波斯语对话数据，研究人员能够更深入地理解波斯语的语法结构、词汇使用和语境依赖。这不仅有助于提升波斯语语言模型的性能，还为波斯语的方言研究、情感分析和语言演变研究提供了宝贵的数据支持。

实际应用

在实际应用中，Colloquial Persian Corpus from Telegram数据集被用于开发波斯语的聊天机器人、社交媒体监控工具和自动翻译系统。例如，企业可以利用该数据集来训练聊天机器人，以更好地理解和服务波斯语用户。此外，政府和研究机构可以通过分析这些数据来监测社交媒体上的公众情绪和舆论趋势。

数据集最近研究