hollyyfc/tidytuesday_for_python
收藏🔖 TidyTuesday for Python
数据集概述
任务类别
- 摘要生成
- 特征提取
- 文本分类
语言
- 英语
标签
- 代码
- 统计
美观名称
- tidytuesday4python
数据集详情
数据集描述
- 创建者: Holly Cui @hollyyfc
- 语言(NLP): 英语
数据集来源
- 仓库: https://github.com/rfordatascience/tidytuesday/tree/master
数据集用途
- 可用于数据可视化、统计分析和机器学习NLP任务。
- 支持多种任务,可用于不同数据处理和可视化技术的基准测试。
- 提供直接查看和下载链接,便于探索不同主题和领域。
数据集结构
- 格式: JSON嵌套结构和CSV格式
- 全集: "full" in loaded datasets |
tidytuesday_json.json和tidytuesday_2023_2024.csvon GitHub - 训练集: "train" in loaded datasets |
tidytuesday_json_train.json和tidytuesday_train.csvon GitHub - 验证集: "validation" in loaded datasets |
tidytuesday_json_val.json和tidytuesday_val.csvon GitHub
数据实例
python { "date_posted": "YYYY-MM-DD", "project_name": "Example project name for one post", "project_source": ["https://example-tidytuesday-post-source/", ...], "description": "Project description excerpted from TidyTuesday repo", "data_source_url": "https://example-tidytuesday/date/repo", "data_dictionary": [ { "variable": [variable1, variable2, ...], "class": [class_type1, class_type2, ...], "description": ["Description of var1", "Description of var2", ...] }, ... ], "data": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/view-link-to-data1", "https://example-tidytuesday/view-link-to-data2", ... ] }, "data_load": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/download-link-to-data1", "https://example-tidytuesday/download-link-to-data2", ... ] } }
数据字段
| 键/变量 | 类型 | 描述 |
|---|---|---|
date_posted |
str | 每周项目发布的日期 (YYYY-MM-DD) |
project_name |
str | 每周项目的名称 |
project_source |
List[str] | 项目数据和信息来源的URL列表 |
description |
str | 项目和数据集的简短描述 |
data_source_url |
str | 每周项目仓库的URL |
data_dictionary |
List[Dict[str: List[str]]] | 包含每个数据集的变量名称、类别和描述的列表 |
data |
Dict[str: List[str]] | 数据集名称和查看链接的字典,file_name 和 file_url 的值以列表形式组织 |
data_load |
Dict[str: List[str]] | 数据集名称和直接下载链接的字典,file_name 和 file_url 的值以列表形式组织 |
数据集创建
创建理由
- 旨在弥合R社区和Python社区之间的资源差距,促进共享教育和开源协作。
- 包括发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目帖子仓库URL等元数据。
源数据
- 主要来源自TidyTuesday官方网站。
- 原始数据生产者包括R社区、TidyTuesday合作者、有趣的网络帖子及学术论文。
数据收集和处理
- 使用Python库
requests和BeautifulSoup进行数据收集。 - 数据以CSV和JSON格式提供,JSON格式特别设计为便于Python环境的集成。
个人和敏感信息
- 由于TidyTuesday的开放源代码性质,数据不会遇到敏感性问题。
使用数据集的考虑
社会影响
- 通过使TidyTuesday数据集更易于Python用户访问,促进更包容和多样化的分析环境。
偏见讨论
- 数据集可能反映R社区贡献者的兴趣和视角,用户应谨慎考虑这些偏见。
其他已知限制
- 依赖于原始TidyTuesday数据集的性质和结构,可能不适用于所有类型的分析任务。




