Dataset-TSE-chat-in-Telegram-group
收藏github2022-09-03 更新2024-05-31 收录
下载链接:
https://github.com/imRezaAlie/Dataset-TSE-chat-in-Telegram-group
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了德黑兰证券交易所Telegram群聊的聊天记录,共有442213条记录。数据集属性包括消息ID、消息内容和日期。
This dataset comprises chat records from Telegram groups associated with the Tehran Stock Exchange, totaling 442,213 entries. The dataset attributes include message ID, message content, and date.
创建时间:
2020-09-09
原始信息汇总
数据集概述
数据集名称
- Dataset for Tehran Stock Exchange chat in Telegram groups(Persian)
记录数量
- 442213条记录
数据集属性
- Id
- Message
- Date
数据集样本
- Id: 1020, 1021, 1022, 1023
- Message:
- 1020: #زیرمجموعه_ثشاهد (شرکت فرآوری و توسعه ابنیه شاهد...)
- 1021: مناسبات جهانی شدن و گذرگاه تاریخی نفت...
- 1022: گروه پتروشيمي سرمايه گذاري ايرانيان در دوره ۱۲ ماهه...
- 1023: سهام خاور شنیده خوب از خاور ایران خودرو دیزل...
- Date:
- 1020: 2020-09-06T10:15:11
- 1021: 2020-09-06T10:14:39
- 1022: 2020-09-06T10:16:14
- 1023: 2020-09-06T10:16:14
搜集汇总
数据集介绍

构建方式
该数据集通过收集Telegram群组中关于德黑兰证券交易所的聊天记录构建而成,涵盖了超过44万条记录。每条记录包含消息的唯一标识符、消息内容以及消息发送的日期和时间。数据来源为公开的Telegram群组,确保了数据的真实性和时效性。
使用方法
该数据集适用于自然语言处理、金融市场分析以及社交媒体行为研究等领域。研究人员可以通过分析消息内容来识别市场情绪、预测股票价格波动或研究投资者行为。使用该数据集时,建议结合时间序列分析方法,以捕捉市场情绪随时间的变化趋势。
背景与挑战
背景概述
Dataset-TSE-chat-in-Telegram-group 数据集由 Reza Ali 及其团队创建,专注于收集和分析德黑兰证券交易所(Tehran Stock Exchange, TSE)相关 Telegram 群组中的波斯语聊天记录。该数据集包含超过 44 万条记录,每条记录包含消息的唯一标识符、消息内容以及发送时间。该数据集的创建旨在为金融文本分析、情感分析以及市场行为预测等领域提供丰富的数据支持。通过分析这些聊天记录,研究人员可以深入探讨投资者情绪、市场趋势以及信息传播对股票市场的影响。该数据集为波斯语自然语言处理(NLP)研究提供了独特的资源,尤其是在金融领域的应用。
当前挑战
Dataset-TSE-chat-in-Telegram-group 数据集面临的主要挑战包括:1) 领域问题的复杂性,即如何从非结构化的聊天文本中提取有价值的金融信息,尤其是波斯语文本的语义理解和情感分析;2) 数据噪声问题,由于聊天记录中存在大量的非正式语言、缩写、表情符号以及拼写错误,这对文本预处理和特征提取提出了更高的要求;3) 数据隐私与合规性,由于数据来源于公开的 Telegram 群组,如何在确保数据可用性的同时保护用户隐私是一个重要的伦理和法律问题。此外,数据的时间跨度较短,可能限制了其在长期趋势分析中的应用。
常用场景
经典使用场景
Dataset-TSE-chat-in-Telegram-group数据集主要用于分析Telegram群组中关于德黑兰证券交易所的讨论内容。这些数据通过捕捉投资者的实时对话和市场情绪,为研究人员提供了一个独特的视角来观察金融市场中的信息传播和投资者行为。特别是在波斯语环境中,这类数据集为研究非英语市场的金融交流提供了宝贵的资源。
解决学术问题
该数据集解决了金融信息传播和投资者行为分析中的关键问题。通过分析群组中的消息内容,研究人员可以深入理解投资者情绪如何影响市场波动,以及信息传播的速度和范围如何塑造市场动态。此外,该数据集还为研究社交媒体在金融市场中的作用提供了实证基础,特别是在新兴市场中,这类研究尤为重要。
实际应用
在实际应用中,Dataset-TSE-chat-in-Telegram-group数据集被广泛用于开发金融预测模型和情绪分析工具。金融机构和投资者可以利用这些工具来监控市场情绪,预测股票价格波动,并制定相应的投资策略。此外,该数据集还可用于监管机构监控市场中的不当行为,如内幕交易和市场操纵。
数据集最近研究
最新研究方向
在金融科技领域,社交媒体数据已成为研究市场情绪和投资者行为的重要资源。Dataset-TSE-chat-in-Telegram-group数据集,包含了超过44万条来自德黑兰证券交易所相关Telegram群组的聊天记录,为研究者提供了丰富的波斯语文本数据。这些数据不仅能够用于分析投资者对特定股票或市场事件的即时反应,还能通过自然语言处理技术,探索市场情绪与股票价格波动之间的关联。此外,该数据集的应用还扩展到了跨文化金融行为研究,特别是在非英语市场中的投资者行为模式分析。随着人工智能技术的进步,此类数据集在预测市场趋势、优化投资策略等方面的潜力日益凸显,为金融市场的智能化分析提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



