RDatasets

github2024-04-15 更新2024-05-31 收录

下载链接：

https://github.com/johnmyleswhite/RDatasets.jl

下载链接

链接失效反馈

官方服务：

资源简介：

RDatasets.jl是一个Julia包，用于加载R核心及许多流行R包中包含的标准数据集。这个包方便Julia用户实验和使用这些数据集。

RDatasets.jl is a Julia package designed for loading standard datasets included in the core of R and many popular R packages. This package facilitates Julia users in experimenting with and utilizing these datasets.

创建时间：

2012-11-24

原始信息汇总

数据集概述

数据集来源

RDatasets.jl 是一个 Julia 包，提供了从 R 语言的核心及其流行包中收集的大量数据集。

数据集加载

使用 RDatasets 包前需安装 DataFrames 包。
数据集通过 dataset() 函数加载，需要指定包名和数据集名。

数据集列表

RDatasets.packages() 函数列出包含数据集的 R 包。
RDatasets.datasets() 函数列出具体的数据集详情，包括数据集名称、标题、行数和列数。

示例数据集

来自 mlmRev 包的数据集示例：
- Chem97: A-level Chemistry scores in 1997, 31022 rows, 8 columns.
- Contraception: Contraceptive use in Bangladesh, 1934 rows, 6 columns.
- Early: Early childhood intervention study, 309 rows, 4 columns.
- Exam: Exam scores from inner London, 4059 rows, 10 columns.
- Gcsemv: GCSE exam score, 1905 rows, 5 columns.
- Hsb82: High School and Beyond - 1982, 7185 rows, 8 columns.
- Mmmec: Malignant melanoma deaths in Europe, 354 rows, 6 columns.
- Oxboys: Heights of Boys in Oxford, 234 rows, 4 columns.
- ScotsSec: Scottish secondary school scores, 3435 rows, 6 columns.
- bdf: Language Scores of 8-Graders in The Netherlands, 2287 rows, 28 columns.
- egsingle: US Sustaining Effects study, 7230 rows, 12 columns.
- guImmun: Immunization in Guatemala, 2159 rows, 13 columns.
- guPrenat: Prenatal care in Guatemala, 2449 rows, 15 columns.
- star: Student Teacher Achievement Ratio (STAR) project data, 26796 rows, 18 columns.

许可证和知识产权

数据集默认遵循 GPL-3 许可证。如有特定数据集需不同处理，请联系维护者。

搜集汇总

数据集介绍

构建方式

RDatasets数据集的构建基于对R语言核心数据集及其众多流行包中数据集的系统整合。通过将这些数据集从R语言环境移植到Julia语言中，RDatasets项目为Julia用户提供了便捷的实验平台。具体而言，该数据集的构建依赖于Vincent Arelbundock在GitHub上创建的Rdatasets仓库，其中包含了来自多个R包的标准数据集。RDatasets.jl通过自动化工具将这些数据集统一整理，并以表格形式呈现，便于用户快速访问和使用。

特点

RDatasets数据集的核心特点在于其广泛性和便捷性。该数据集涵盖了超过700个来自不同领域的数据集，涉及统计学、经济学、心理学、生存分析等多个学科。这些数据集不仅来源于R语言的核心包，还包括了许多流行扩展包中的经典数据集。此外，RDatasets.jl通过简洁的API设计，使得用户能够轻松加载和操作这些数据集，极大地简化了数据分析的流程。

使用方法

使用RDatasets数据集时，用户首先需要安装RDatasets.jl包，该包会自动安装所需的依赖项。随后，用户可以通过`dataset()`函数加载特定的数据集，该函数接受包名和数据集名作为参数。例如，`iris = dataset("datasets", "iris")`将加载经典的鸢尾花数据集。此外，用户还可以通过`RDatasets.packages()`和`RDatasets.datasets()`函数分别查看所有支持的R包及其包含的数据集，或针对特定包进行数据集查询。

背景与挑战

背景概述

RDatasets数据集由Vincent Arelbundock创建，旨在为Julia用户提供便捷访问R语言核心及多个流行R包中的标准数据集的途径。该数据集的构建基于R语言生态系统中的丰富数据资源，涵盖了从统计学、经济学到心理学等多个领域的数据集。RDatasets的推出不仅简化了Julia用户在数据分析中的数据获取过程，还促进了跨语言数据分析的协作与研究。通过将R语言中的经典数据集整合到一个统一的平台上，RDatasets为研究人员和数据科学家提供了丰富的实验材料，进一步推动了数据驱动研究的发展。

当前挑战

RDatasets在构建过程中面临的主要挑战之一是数据集的多样性和复杂性。由于涉及多个R包中的数据集，确保数据的完整性和一致性成为一项艰巨任务。此外，不同数据集可能受限于不同的许可协议，如何在遵守知识产权法规的前提下公开这些数据集也是一个重要的挑战。最后，随着R语言生态系统的不断扩展，RDatasets需要持续更新以包含新的数据集，这要求项目维护者具备高度的响应能力和技术支持。

常用场景

经典使用场景

RDatasets数据集的经典使用场景主要体现在统计学和数据分析领域。研究者可以利用该数据集中的丰富样本，进行各种统计模型的验证与优化，尤其是在线性回归、分类、聚类等经典统计方法的应用。例如，使用Iris数据集进行分类模型的训练与测试，或利用Survival Analysis数据集进行生存分析模型的构建与评估。

衍生相关工作

RDatasets数据集的广泛应用催生了许多相关研究和工作。例如，基于该数据集的统计模型优化研究、数据可视化工具的开发，以及跨领域的数据分析方法探索。此外，许多开源项目和学术论文也基于RDatasets数据集进行实验和验证，进一步推动了统计学和数据科学的发展。

数据集最近研究