five

Dados da Python Nordeste

收藏
github2025-07-05 更新2025-07-13 收录
下载链接:
https://github.com/pythonNordeste/dados
下载链接
链接失效反馈
官方服务:
资源简介:
Python Nordeste会议各届的数据集,包含2019、2024和2025年的注册人员信息。

The dataset includes attendee registration records for the 2019, 2024, and 2025 editions of the Python Nordeste conference.
创建时间:
2025-06-26
原始信息汇总

Python Nordeste数据集概述

数据集基本信息

  • 主题领域:Pessoas > Tecnologia(人群 > 技术)
  • 数据内容:Python Nordeste会议各届参会者注册数据
  • 数据格式:CSV

包含的数据文件

文件路径 年份 描述 格式
2019/inscritos.csv 2019 PyNE 2019注册人员数据 csv
2024/inscritos.csv 2024 PyNE 2024注册人员数据 csv
2025/inscritos.csv 2025 PyNE 2025注册人员数据 csv

数据处理说明

  • 数据清洗工具scripts/even3-excel-to-csv.py
  • 处理功能
    • 读取Even3平台的原始注册文件
    • 移除敏感信息列(ID、姓名、电子邮件、CPF等)
    • 将空单元格填充为" Não respondeu"
    • 输出为CSV格式

相关数据集

  • Python Brasil数据集
  • Python Brasil开放数据项目
搜集汇总
数据集介绍
构建方式
Dados da Python Nordeste数据集通过系统化采集Python Nordeste会议历年注册信息构建而成,其核心数据源来自Even3活动管理平台导出的原始Excel文件。项目团队开发了自动化清洗脚本even3-excel-to-csv.py,该工具可智能移除包含敏感信息的字段(如CPF、电话号码等),并将空值统一标注为'Não respondeu',最终生成符合隐私保护标准的CSV格式数据。每年会议数据按独立目录存储,形成完整的时间序列数据集。
特点
该数据集以参会者注册信息为核心,采用纵向时间维度架构,完整覆盖2019至2025年共三届会议数据。数据字段经过严格的脱敏处理,在保留分析价值的同时确保隐私安全。其标准化存储结构支持跨年度对比研究,CSV格式确保与主流数据分析工具的兼容性。作为巴西东北地区Python技术社区的缩影,该数据集为研究技术会议参与行为提供了独特视角。
使用方法
研究者可通过GitHub仓库直接获取分年度存储的CSV文件,每个文件包含对应年份会议注册者的非敏感字段信息。数据集支持两种应用场景:横向分析单届会议参与者特征时,可直接加载相应年份文件;纵向研究社区发展趋势时,需合并多年度数据进行时间序列分析。配套提供的Even3平台数据清洗脚本也可复用于其他会议数据处理场景,但需注意不同平台导出的原始数据结构可能存在差异。
背景与挑战
背景概述
Dados da Python Nordeste数据集由Python Nordeste社区创建,旨在收集和整理该地区Python技术会议的参与者信息。该数据集自2019年起持续更新,记录了历届会议的注册数据,反映了巴西东北部地区Python开发者社区的动态发展。作为开源社区驱动的数据项目,它不仅服务于会议组织方的需求,更为研究技术社区生态、参会者行为模式提供了宝贵资源。数据集与Python Brasil的开放数据项目形成互补,共同构建了巴西Python技术社区的宏观画像。
当前挑战
该数据集面临双重挑战:在领域问题层面,技术会议参与者数据的分析涉及复杂的群体行为模式识别,需要解决数据稀疏性与特征工程难题;在构建过程中,原始数据包含大量敏感个人信息,如何在保持数据实用性的同时遵循隐私保护原则成为关键挑战。数据清洗脚本虽能处理Even3平台的特定格式,但跨年份数据一致性维护与缺失值标准化处理仍需人工干预,这对长期数据质量管控提出持续要求。
常用场景
经典使用场景
在技术社区分析领域,Dados da Python Nordeste数据集为研究巴西东北地区Python开发者社区的动态提供了宝贵资源。该数据集记录了2019至2025年间PyNE会议的注册信息,常被用于分析区域性技术会议的参与者特征、地域分布及年度变化趋势。研究人员通过挖掘这些结构化数据,能够揭示技术社区成长规律与人才流动模式。
衍生相关工作
该数据集催生了多项关于技术社区生态的研究,如《巴西技术会议参与者迁移模式分析》采用空间统计方法挖掘注册数据。其数据清洗流程还被Python Brasil开放数据项目复用,建立了技术会议数据处理的标准框架,推动了拉丁美洲地区更多技术社区的数据开放运动。
数据集最近研究
最新研究方向
在技术社区发展研究领域,Dados da Python Nordeste数据集为分析区域开发者生态的演变提供了独特视角。该数据集记录了巴西东北部Python会议历年参与者信息,其最新研究方向聚焦于技术社区多样性评估和区域人才流动模式。研究者正利用2019至2025年的纵向数据,结合自然语言处理技术,挖掘技术社区参与者的技能分布与地域特征关联性。随着全球对技术社区治理透明化的需求增长,该数据集与Python Brasil等开源项目的关联研究,正在推动拉丁美洲开发者生态系统的标准化评估框架构建。这类研究对制定区域性技术人才培养政策具有重要参考价值,同时也为开源社区可持续发展指标体系的建立提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作