DevTwitter Dataset
收藏github2025-05-17 更新2025-05-19 收录
下载链接:
https://github.com/DevTwitter/devtwitter-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个从DevTwitter Telegram频道导出的JSON文件,包含自2020年5月创建以来的帖子、链接和反应数据。适用于数据分析和NLP研究。
This dataset is a JSON file exported from the DevTwitter Telegram channel, containing post, link and reaction data generated since the channel was launched in May 2020. It is suitable for data analysis and natural language processing (NLP) research.
创建时间:
2025-05-17
原始信息汇总
DevTwitter 数据集概述
基本信息
- 名称: DevTwitter | توییت برنامه نویسی
- 语言: 波斯语 (Persian)
- 主题: 编程 (Programming)
- 许可证: MIT License
- 来源: 公开的Telegram频道 "DevTwitter | توییت برنامه نویسی"
- 时间范围: 2020年5月23日 - 2025年5月16日
数据集内容
- 数据格式: JSON
- 内容类型:
- 文本帖子
- 编程文章链接
- 图片
- 反应数据(社区参与度)
- 消息时间戳和编辑信息
数据结构
json { "name": "DevTwitter | توییت برنامه نویسی", "type": "public_channel", "id": 1377200663, "messages": [ // 消息对象数组 ] }
统计信息
- 总消息数: 8000+
- 主要分类: Web开发、DevOps、编程语言、软件工程
- 语言分布: 波斯语(Farsi)为主,包含英语技术内容
应用场景
- 自然语言处理研究: 波斯语编程术语训练
- 内容分析: 波斯开发者社区编程趋势研究
- 教育资源: 创建有价值的编程资源集合
- 推荐系统: 基于受欢迎程度构建编程文章推荐工具
使用说明
- 前提条件: 任何支持JSON解析的编程语言
- 示例代码: 提供Python示例用于加载数据集、统计消息数、提取链接、分析消息频率和反应类型
支持与许可
- 支持方式: 通过HamiBash或Buy Me A Coffee支持
- 许可证: MIT License
- 免责声明: 数据集仅包含Telegram频道的公开信息,用于教育和研究目的
致谢
- DevTwitter Telegram频道的所有贡献者
- 波斯开发者社区
搜集汇总
数据集介绍

构建方式
DevTwitter数据集通过系统化采集波斯语编程社区Telegram频道的历史消息构建而成,其核心数据源为公开频道'DevTwitter | توییت برنامه نویسی'自2020年5月创建至2025年5月的完整交互记录。技术实现上采用JSON格式结构化存储,每条消息均包含文本实体、时间戳、编辑状态及用户反应等多维度元数据,通过自动化脚本定期归档频道内容形成时序数据集。数据清洗过程中保留原始波斯语文本特征,同时标注了英语技术术语以支持跨语言研究。
使用方法
使用本数据集需通过标准JSON解析工具加载,其嵌套数据结构建议采用递归遍历方式处理。典型应用场景包括:基于消息频率的时间序列分析可揭示技术趋势周期;文本实体提取支持波斯语NLP模型的领域适应训练;反应数据聚类有助于识别高价值内容。研究人员可通过过滤特定日期范围或消息类型进行纵向对比,而链接网络分析则能构建波斯语开发者的知识图谱。示例代码已展示基础统计方法,更复杂的自然语言处理需结合波斯语分词工具实现。
背景与挑战
背景概述
DevTwitter Dataset作为波斯语开发者社区的重要语料库,由DevTwitter Telegram频道于2020年5月创建并持续更新至2025年。该数据集系统收录了波斯语编程社区的公开讨论内容,涵盖技术文章链接、代码讨论及社群互动等多模态数据,为波斯语自然语言处理研究提供了稀缺资源。其核心价值在于填补了中东地区非英语编程社区数据集的空白,尤其对波斯语技术术语分析、开发者行为模式研究具有开创性意义。数据集由匿名社区成员集体贡献,采用MIT开源协议,已成为研究多语言技术社区生态的基准数据之一。
当前挑战
该数据集面临双重挑战:在领域问题层面,波斯语作为低资源语言存在词形复杂、技术术语标准化不足等自然语言处理难题,且编程社区特有的代码混合现象加剧了语义解析难度;在构建过程中,需平衡数据规模与隐私保护,处理非结构化消息中的多媒体嵌入问题,同时克服波斯语字符编码差异导致的预处理障碍。此外,技术内容的快速迭代特性要求数据集持续更新以保持时效性,这对长期维护提出较高要求。
常用场景
经典使用场景
DevTwitter数据集作为波斯语编程社区的精选内容集合,为自然语言处理(NLP)研究提供了丰富的语料库。研究者可利用该数据集分析波斯语编程术语的演变趋势,探索开发者社区的语言使用特征。数据集中的文本、链接和反应数据为语言模型训练和社区行为分析提供了多维度的研究素材。
解决学术问题
该数据集有效解决了波斯语技术文本资源匮乏的学术困境,为跨语言NLP研究填补了关键空白。通过分析编程术语的社区传播路径,研究者能够揭示技术知识在非英语社区的扩散规律。时间戳与互动数据为计算社会科学提供了研究开发者社区动态的实证基础。
实际应用
在教育领域,该数据集可自动生成波斯语编程教学资源库;在企业场景中,支持构建面向波斯开发者的技术内容推荐系统。数据中提取的高价值技术链接经过质量过滤后,能显著提升开发者社区的知识获取效率。
数据集最近研究
最新研究方向
随着波斯语开发者社群的迅速崛起,DevTwitter数据集作为首个聚焦波斯语编程社区动态的开放语料库,正在推动多语言自然语言处理的前沿探索。该数据集独特的价值在于捕捉了波斯语技术讨论中特有的代码混合现象——波斯语与英语术语的有机融合,为低资源语言处理提供了珍贵的研究样本。当前研究热点集中在跨语言预训练模型优化,通过分析该数据集中的技术术语翻译模式和社区互动特征,研究者能够开发更精准的波斯语技术文本分类算法。与此同时,该数据集的时间跨度覆盖了疫情期间远程协作的技术演进轨迹,为开发者行为学研究提供了量化分析基础。在知识图谱构建领域,这些来自真实场景的技术讨论正被用于建立波斯语编程概念关联网络,填补了非英语技术生态系统的认知空白。
以上内容由遇见数据集搜集并总结生成



