five

hollyyfc/tidytuesday_for_python

收藏
Hugging Face2024-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hollyyfc/tidytuesday_for_python
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集从2023-2024年的TidyTuesday项目中抓取数据,旨在使R社区的资源对Python用户更加易用。TidyTuesday是一个根植于R社区的项目,每周提供用于数据可视化和处理的数据集。这些数据集经过专家清理和预处理,通常以.csv、.json等常见文件格式提供,但对于Python学习者来说,这些资源并不直接可用。因此,该数据集试图弥合R和Python社区之间的资源差距,促进共享教育和开源协作。数据集包括元数据,如发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目发布库URL,主要使用英语。数据集结构包括JSON嵌套层次结构和CSV格式,适用于数据可视化、统计分析和机器学习NLP任务。

该数据集从2023-2024年的TidyTuesday项目中抓取数据,旨在使R社区的资源对Python用户更加易用。TidyTuesday是一个根植于R社区的项目,每周提供用于数据可视化和处理的数据集。这些数据集经过专家清理和预处理,通常以.csv、.json等常见文件格式提供,但对于Python学习者来说,这些资源并不直接可用。因此,该数据集试图弥合R和Python社区之间的资源差距,促进共享教育和开源协作。数据集包括元数据,如发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目发布库URL,主要使用英语。数据集结构包括JSON嵌套层次结构和CSV格式,适用于数据可视化、统计分析和机器学习NLP任务。
提供机构:
hollyyfc
原始信息汇总

🔖 TidyTuesday for Python

数据集概述

任务类别

  • 摘要生成
  • 特征提取
  • 文本分类

语言

  • 英语

标签

  • 代码
  • 统计

美观名称

  • tidytuesday4python

数据集详情

数据集描述

  • 创建者: Holly Cui @hollyyfc
  • 语言(NLP): 英语

数据集来源

  • 仓库: https://github.com/rfordatascience/tidytuesday/tree/master

数据集用途

  • 可用于数据可视化、统计分析和机器学习NLP任务。
  • 支持多种任务,可用于不同数据处理和可视化技术的基准测试。
  • 提供直接查看和下载链接,便于探索不同主题和领域。

数据集结构

  • 格式: JSON嵌套结构和CSV格式
  • 全集: "full" in loaded datasets | tidytuesday_json.jsontidytuesday_2023_2024.csv on GitHub
  • 训练集: "train" in loaded datasets | tidytuesday_json_train.jsontidytuesday_train.csv on GitHub
  • 验证集: "validation" in loaded datasets | tidytuesday_json_val.jsontidytuesday_val.csv on GitHub

数据实例

python { "date_posted": "YYYY-MM-DD", "project_name": "Example project name for one post", "project_source": ["https://example-tidytuesday-post-source/", ...], "description": "Project description excerpted from TidyTuesday repo", "data_source_url": "https://example-tidytuesday/date/repo", "data_dictionary": [ { "variable": [variable1, variable2, ...], "class": [class_type1, class_type2, ...], "description": ["Description of var1", "Description of var2", ...] }, ... ], "data": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/view-link-to-data1", "https://example-tidytuesday/view-link-to-data2", ... ] }, "data_load": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/download-link-to-data1", "https://example-tidytuesday/download-link-to-data2", ... ] } }

数据字段

键/变量 类型 描述
date_posted str 每周项目发布的日期 (YYYY-MM-DD)
project_name str 每周项目的名称
project_source List[str] 项目数据和信息来源的URL列表
description str 项目和数据集的简短描述
data_source_url str 每周项目仓库的URL
data_dictionary List[Dict[str: List[str]]] 包含每个数据集的变量名称、类别和描述的列表
data Dict[str: List[str]] 数据集名称和查看链接的字典,file_namefile_url 的值以列表形式组织
data_load Dict[str: List[str]] 数据集名称和直接下载链接的字典,file_namefile_url 的值以列表形式组织

数据集创建

创建理由

  • 旨在弥合R社区和Python社区之间的资源差距,促进共享教育和开源协作。
  • 包括发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目帖子仓库URL等元数据。

源数据

  • 主要来源自TidyTuesday官方网站。
  • 原始数据生产者包括R社区、TidyTuesday合作者、有趣的网络帖子及学术论文。

数据收集和处理

  • 使用Python库requestsBeautifulSoup进行数据收集。
  • 数据以CSV和JSON格式提供,JSON格式特别设计为便于Python环境的集成。

个人和敏感信息

  • 由于TidyTuesday的开放源代码性质,数据不会遇到敏感性问题。

使用数据集的考虑

社会影响

  • 通过使TidyTuesday数据集更易于Python用户访问,促进更包容和多样化的分析环境。

偏见讨论

  • 数据集可能反映R社区贡献者的兴趣和视角,用户应谨慎考虑这些偏见。

其他已知限制

  • 依赖于原始TidyTuesday数据集的性质和结构,可能不适用于所有类型的分析任务。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作