quiz.csv, cancer_newcases_PK10.json, cancer_incidence_PK30.json, healthcare_personnel_salary.tsv, mean_annual_population.csv

github2022-01-09 更新2024-05-31 收录

下载链接：

https://github.com/rstats-tartu/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

quiz.csv: 包含多个问题的数据集，需要进一步处理。 cancer_newcases_PK10.json: 恶性肿瘤新病例数据，按特定部位、性别和年龄组分类。 cancer_incidence_PK30.json: 恶性肿瘤年龄特异发病率数据，按部位和性别分类。 healthcare_personnel_salary.tsv: 全职和兼职医疗保健人员平均月薪及额外支付数据，按不同职业和年龄组分类。 mean_annual_population.csv: 年度平均人口数据，按性别、年份和年龄组分类。

quiz.csv: A dataset containing multiple questions that requires further processing. cancer_newcases_PK10.json: Data on new cases of malignant tumors, categorized by specific sites, gender, and age groups. cancer_incidence_PK30.json: Data on age-specific incidence rates of malignant tumors, categorized by site and gender. healthcare_personnel_salary.tsv: Data on the average monthly salary and additional payments for full-time and part-time healthcare personnel, categorized by different professions and age groups. mean_annual_population.csv: Data on the annual average population, categorized by gender, year, and age groups.

创建时间：

2017-09-20

原始信息汇总

数据集概述

1. quiz.csv

描述: 包含时间、教育、监督等多个变量的数据集。
处理: 需要对教育变量进行数值化处理，并移除一个非问题变量。

2. cancer_newcases_PK10.json

描述: 来自Estonian Health Statistics数据库，包含新恶性肿瘤病例的数据。
处理: 使用boulder包的json_to_df()函数导入。

3. cancer_incidence_PK30.json

描述: 来自Estonian Health Statistics数据库，包含恶性肿瘤的年龄特定发病率数据。

4. healthcare_personnel_salary.tsv

描述: 包含全职和兼职医疗保健人员平均月薪及额外支付的数据。
处理: 使用readr包的read_tsv()函数导入。

5. mean_annual_population.csv

描述: 来自Statistics Estonia数据库，包含按性别、年份和年龄组分的平均年度人口数据。
处理: 使用readr包的read_csv()函数导入。

6. transactions_residential_apartments.csv

描述: 来自Estonian Land Board交易数据库，包含住宅公寓交易的数据。
处理: 使用readr包的read_csv()函数导入。

7. viruses.csv

描述: 包含病毒基因组摘要的数据集。
处理: 使用readr包的read_csv()函数导入。

8. virus_genome_tables.csv

描述: 包含病毒和宿主的数据库。
处理: 使用readr包的read_csv()函数导入。

9. virushostdb.tsv

描述: 原始数据源，用于生成virus_genome_tables.csv。
处理: 使用readr包的read_tsv()函数导入。

以上数据集均需通过特定的R函数进行下载和导入，以供进一步分析使用。

搜集汇总

数据集介绍

构建方式

该数据集通过多种方式构建，涵盖了多个领域的数据。例如，quiz.csv文件通过直接下载并导入R进行处理，而cancer_newcases_PK10.json和cancer_incidence_PK30.json则来源于爱沙尼亚健康统计数据库，使用boulder包进行数据转换。healthcare_personnel_salary.tsv和mean_annual_population.csv分别从爱沙尼亚健康统计数据库和爱沙尼亚统计局获取，并通过R脚本进行预处理。此外，病毒相关数据集如viruses.csv和virus_genome_tables.csv则从NCBI和Genome.jp等公开数据库下载并清理。

使用方法

该数据集的使用方法较为灵活，用户可以通过R语言进行数据导入和处理。首先，用户需从GitHub下载所需文件，并将其存储在本地的“data”文件夹中。随后，使用readr包中的read_csv、read_tsv或boulder包中的json_to_df函数进行数据导入。对于需要进行数据清洗或转换的文件，用户可参考提供的R脚本进行处理。例如，quiz.csv文件在导入后需进行列名修正和数据类型转换，而cancer_newcases_PK10.json则需使用boulder包进行JSON到数据框的转换。

背景与挑战

背景概述

该数据集集合涵盖了多个领域的统计数据，包括教育、癌症发病率、医疗人员薪资、年度平均人口以及病毒基因组信息等。这些数据主要来源于爱沙尼亚健康统计数据库和爱沙尼亚统计局，旨在为研究人员提供多维度、跨领域的数据支持。数据集的核心研究问题包括癌症发病率的趋势分析、医疗人员薪资结构的评估、人口统计的动态变化以及病毒基因组的多样性研究。这些数据不仅为公共卫生政策制定提供了科学依据，也为病毒学和基因组学研究提供了宝贵资源。

当前挑战

该数据集在构建和使用过程中面临多重挑战。首先，数据来源的多样性和格式的复杂性增加了数据整合的难度，例如JSON和CSV格式的转换问题。其次，数据清洗和预处理过程中，部分字段需要手动调整或删除，如quiz数据集中的非问题字段。此外，数据下载和导入过程中，部分用户可能会遇到直接从GitHub URL读取文件失败的问题，需通过本地下载和导入的方式解决。最后，病毒基因组数据的复杂性和多样性对数据分析和解读提出了更高的技术要求，尤其是在跨物种宿主关系的研究中，数据的准确性和完整性至关重要。

常用场景

经典使用场景

quiz.csv数据集常用于教育研究领域，特别是在统计学课程中，用于分析学生的学习行为、课程参与度及其对统计知识的掌握程度。通过该数据集，研究者能够深入探讨教育干预措施对学生学习成果的影响，从而优化教学策略。

解决学术问题

cancer_newcases_PK10.json和cancer_incidence_PK30.json数据集为癌症流行病学研究提供了宝贵的数据支持。这些数据集详细记录了不同性别、年龄组及癌症部位的发病率和新增病例数，帮助研究者识别癌症的高发群体及其潜在风险因素，为公共卫生政策的制定提供了科学依据。

实际应用

healthcare_personnel_salary.tsv数据集在医疗人力资源管理领域具有重要应用价值。通过分析不同职业、年龄组的医护人员薪资水平，医疗机构能够制定更具竞争力的薪酬策略，吸引和保留高素质的医疗人才，从而提升医疗服务质量。

数据集最近研究