hollyyfc/tidytuesday_for_python

Name: hollyyfc/tidytuesday_for_python
Creator: hollyyfc
Published: 2024-03-23 02:06:57
License: 暂无描述

Hugging Face2024-03-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hollyyfc/tidytuesday_for_python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集从2023-2024年的TidyTuesday项目中抓取数据，旨在使R社区的资源对Python用户更加易用。TidyTuesday是一个根植于R社区的项目，每周提供用于数据可视化和处理的数据集。这些数据集经过专家清理和预处理，通常以.csv、.json等常见文件格式提供，但对于Python学习者来说，这些资源并不直接可用。因此，该数据集试图弥合R和Python社区之间的资源差距，促进共享教育和开源协作。数据集包括元数据，如发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目发布库URL，主要使用英语。数据集结构包括JSON嵌套层次结构和CSV格式，适用于数据可视化、统计分析和机器学习NLP任务。

提供机构：

hollyyfc

原始信息汇总

🔖 TidyTuesday for Python

数据集概述

任务类别

摘要生成
特征提取
文本分类

语言

英语

美观名称

tidytuesday4python

数据集详情

数据集描述

创建者: Holly Cui @hollyyfc
语言(NLP): 英语

数据集来源

仓库: https://github.com/rfordatascience/tidytuesday/tree/master

数据集用途

可用于数据可视化、统计分析和机器学习NLP任务。
支持多种任务，可用于不同数据处理和可视化技术的基准测试。
提供直接查看和下载链接，便于探索不同主题和领域。

数据集结构

格式: JSON嵌套结构和CSV格式
全集: "full" in loaded datasets | tidytuesday_json.json 和 tidytuesday_2023_2024.csv on GitHub
训练集: "train" in loaded datasets | tidytuesday_json_train.json 和 tidytuesday_train.csv on GitHub
验证集: "validation" in loaded datasets | tidytuesday_json_val.json 和 tidytuesday_val.csv on GitHub

数据实例

python { "date_posted": "YYYY-MM-DD", "project_name": "Example project name for one post", "project_source": ["https://example-tidytuesday-post-source/", ...], "description": "Project description excerpted from TidyTuesday repo", "data_source_url": "https://example-tidytuesday/date/repo", "data_dictionary": [ { "variable": [variable1, variable2, ...], "class": [class_type1, class_type2, ...], "description": ["Description of var1", "Description of var2", ...] }, ... ], "data": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/view-link-to-data1", "https://example-tidytuesday/view-link-to-data2", ... ] }, "data_load": { "file_name": [ "data1.csv", "data2.csv", ... ], "file_url": [ "https://example-tidytuesday/download-link-to-data1", "https://example-tidytuesday/download-link-to-data2", ... ] } }

数据字段

键/变量	类型	描述
`date_posted`	str	每周项目发布的日期 (YYYY-MM-DD)
`project_name`	str	每周项目的名称
`project_source`	List[str]	项目数据和信息来源的URL列表
`description`	str	项目和数据集的简短描述
`data_source_url`	str	每周项目仓库的URL
`data_dictionary`	List[Dict[str: List[str]]]	包含每个数据集的变量名称、类别和描述的列表
`data`	Dict[str: List[str]]	数据集名称和查看链接的字典，`file_name` 和 `file_url` 的值以列表形式组织
`data_load`	Dict[str: List[str]]	数据集名称和直接下载链接的字典，`file_name` 和 `file_url` 的值以列表形式组织

数据集创建

创建理由

旨在弥合R社区和Python社区之间的资源差距，促进共享教育和开源协作。
包括发布日期、项目名称、来源、描述、数据字典、数据下载URL和项目帖子仓库URL等元数据。

源数据

主要来源自TidyTuesday官方网站。
原始数据生产者包括R社区、TidyTuesday合作者、有趣的网络帖子及学术论文。

数据收集和处理

使用Python库requests和BeautifulSoup进行数据收集。
数据以CSV和JSON格式提供，JSON格式特别设计为便于Python环境的集成。

个人和敏感信息

由于TidyTuesday的开放源代码性质，数据不会遇到敏感性问题。

使用数据集的考虑

社会影响

通过使TidyTuesday数据集更易于Python用户访问，促进更包容和多样化的分析环境。

偏见讨论

数据集可能反映R社区贡献者的兴趣和视角，用户应谨慎考虑这些偏见。

其他已知限制

依赖于原始TidyTuesday数据集的性质和结构，可能不适用于所有类型的分析任务。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集