Sep_TD_Tel01

github2022-11-29 更新2024-05-31 收录

下载链接：

https://github.com/cominsys/Sep_TD_Tel01

下载链接

链接失效反馈

官方服务：

资源简介：

Sep_TD_Tel01数据集由ComInSyS编译，旨在解决波斯语资源稀缺问题，并利用Telegram在伊朗的高普及率。该数据集包含2017年1月1日至31日间，公共频道和群组发送的10,209条消息记录，分为60个12小时窗口，重点关注两个热门话题：‘阿亚图拉·哈希米·拉夫桑贾尼的去世’和‘普拉斯科大楼火灾’。

The Sep_TD_Tel01 dataset, compiled by ComInSyS, aims to address the scarcity of Persian language resources and leverages the high penetration rate of Telegram in Iran. This dataset comprises 10,209 message records sent in public channels and groups from January 1 to 31, 2017, divided into 60 twelve-hour windows, with a focus on two trending topics: 'The Death of Ayatollah Hashemi Rafsanjani' and 'The Plasco Building Fire'.

创建时间：

2022-03-12

原始信息汇总

数据集概述

数据集名称

名称: Sep_TD_Tel01
主题: 波斯语Telegram帖子的话题检测

数据集描述

编译者: ComInSyS
目的: 由于波斯语资源有限且Telegram在伊朗的高普及率，该数据集旨在收集相关数据。
收集方法: 使用Telegram官方API，仅收集公开频道和群组的公开数据，以尊重隐私原则。
数据量: 包含10,209条消息记录，收集于2017年1月1日至2017年1月31日的一个月内。
数据划分: 分为60个12小时窗口，其中9个窗口被选为GT并标记，窗口编号为[14, 15, 16, 17, 18, 37, 38, 39, 40]。
主要话题: 包括两个热点话题：“阿亚图拉·哈希米·拉夫桑贾尼的去世”和“普拉斯科大楼火灾”。

引用信息

引用格式: bib @Misc{Sep-TD-Tel_Mendeley, title={Sep_TD_Tel01}, author = {Mehrdad Ranjbar-Khadivi and Mohammad-Reza Feizi-Derakhshi and Aynaz Forouzandeh and Pejman Gholami and Ali-Reza Feizi-Derakhshi and Elnaz Zafarani-Moattar}, year = {2022}, doi = {10.17632/372rnwf9pc}, url = {https://github.com/cominsys/Sep_TD_Tel01} }

搜集汇总

数据集介绍

构建方式

Sep_TD_Tel01数据集的构建依托于波斯语资源的稀缺性以及Telegram社交网络在伊朗的高普及率。研究团队通过Telegram官方API，仅收集了公共频道和公共群组的数据，以尊重用户隐私。数据集涵盖了2017年1月1日至1月31日期间10,209条消息，这些消息被划分为60个12小时的时间窗口，并特别标注了其中9个窗口作为基准测试集。

特点

该数据集的特点在于其专注于波斯语环境下的主题检测，特别是针对Telegram平台上的公共频道和群组。数据集中包含两个热点话题：“阿亚图拉·哈希米·拉夫桑贾尼的去世”和“普拉斯科大楼火灾”，这些话题在特定时间段内引发了广泛讨论。此外，数据集的标注部分为研究者提供了可靠的基准，便于模型性能的评估与优化。

使用方法

Sep_TD_Tel01数据集主要用于波斯语主题检测的研究与开发。研究者可以通过分析时间窗口内的消息内容，探索热点话题的传播规律及用户行为模式。标注的基准测试集可用于验证模型的准确性，而其余数据则可用于训练和优化算法。数据集的使用需遵循Telegram的隐私政策，并引用相关文献以尊重作者的知识产权。

背景与挑战

背景概述

Sep_TD_Tel01数据集由ComInSyS团队于2022年创建，旨在解决波斯语资源匮乏的问题，并针对伊朗Telegram社交网络的高普及率进行研究。该数据集通过Telegram官方API收集了2017年1月1日至1月31日期间10,209条公共频道和群组中的消息记录，涵盖了两个热点话题：'阿亚图拉哈什米·拉夫桑贾尼的逝世'和'普拉斯科大楼火灾'。数据集被划分为60个12小时的时间窗口，其中9个窗口被选为基准测试集并进行了人工标注。该数据集为波斯语自然语言处理领域提供了重要的资源支持，尤其在话题检测和命名实体识别等任务中具有显著影响力。

当前挑战

Sep_TD_Tel01数据集在构建和应用中面临多重挑战。首先，波斯语作为一种低资源语言，缺乏高质量的标注数据，这限制了模型的训练效果。其次，Telegram平台上的数据具有高度的动态性和多样性，如何有效捕捉话题的演变趋势成为一大难题。此外，数据收集过程中需严格遵守隐私保护原则，仅能获取公开频道和群组的信息，这可能导致数据覆盖范围受限。最后，数据集的时间窗口划分和标注过程需要大量人工干预，如何提高标注效率和准确性也是亟待解决的问题。

常用场景

经典使用场景

Sep_TD_Tel01数据集在波斯语社交媒体分析领域具有重要应用价值，尤其是在话题检测和情感分析方面。该数据集通过收集2017年1月期间波斯语Telegram公共频道和群组中的10,209条消息，为研究者提供了一个丰富的语料库。其经典使用场景包括利用这些数据训练和评估话题检测模型，特别是在处理波斯语这种低资源语言时，能够有效提升模型的准确性和鲁棒性。

衍生相关工作

基于Sep_TD_Tel01数据集，研究者们已经开展了多项经典工作。例如，Gholami-Dastgerdi等人利用该数据集开发了一种基于波束搜索算法的命名实体识别模型，显著提升了波斯语文本处理的准确性。此外，该数据集还被用于多项波斯语话题检测和情感分析的研究，推动了波斯语自然语言处理领域的技术进步。

数据集最近研究