five

BigQuery Public Datasets|公共数据集数据集|数据分析数据集

收藏
cloud.google.com2024-11-02 收录
公共数据集
数据分析
下载链接:
https://cloud.google.com/bigquery/public-data
下载链接
链接失效反馈
资源简介:
BigQuery Public Datasets是由Google Cloud提供的一系列公开数据集,涵盖了多种领域,包括天气、交通、经济、社交媒体等。这些数据集可以直接在Google BigQuery中查询和分析,无需下载。
提供机构:
cloud.google.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
BigQuery Public Datasets是由Google Cloud平台提供的一个公开数据集集合,旨在为研究人员、数据科学家和开发者提供丰富的数据资源。这些数据集涵盖了多个领域,包括气候变化、公共交通、经济指标等。数据集的构建方式主要依赖于Google Cloud的强大存储和计算能力,通过自动化工具和人工审核相结合的方式,确保数据的质量和一致性。此外,Google还与多个政府机构、研究机构和非营利组织合作,共同收集和整理这些数据,以确保其广泛性和代表性。
特点
BigQuery Public Datasets的一个显著特点是其数据的高质量和多样性。这些数据集不仅涵盖了广泛的主题,还经过了严格的清洗和标准化处理,确保了数据的准确性和可用性。此外,数据集的更新频率较高,能够及时反映最新的社会经济动态和科学研究成果。另一个特点是其强大的查询和分析功能,用户可以通过Google Cloud的BigQuery服务,利用SQL语言进行高效的数据查询和分析,极大地简化了数据处理流程。
使用方法
使用BigQuery Public Datasets时,用户首先需要注册Google Cloud账户,并开通BigQuery服务。随后,用户可以通过Google Cloud Console或BigQuery API访问这些公开数据集。在访问过程中,用户可以根据自己的研究或开发需求,选择合适的数据集进行查询和分析。BigQuery提供了丰富的文档和示例代码,帮助用户快速上手。此外,用户还可以将这些数据集与其他数据源进行整合,进行更深入的数据挖掘和分析,从而获得有价值的洞察。
背景与挑战
背景概述
BigQuery Public Datasets是由Google Cloud平台提供的一个公开数据集集合,旨在为研究人员、数据科学家和开发者提供丰富的数据资源。这些数据集涵盖了多个领域,包括气候变化、公共健康、经济指标等,为跨学科研究提供了宝贵的数据支持。自其创建以来,BigQuery Public Datasets已成为全球范围内数据分析和机器学习项目的重要资源,极大地推动了数据驱动的科学研究和商业应用的发展。
当前挑战
尽管BigQuery Public Datasets提供了丰富的数据资源,但其使用过程中仍面临诸多挑战。首先,数据集的多样性和复杂性要求用户具备较高的数据处理和分析能力,以确保数据的准确性和有效性。其次,数据集的更新频率和质量控制也是一个重要问题,尤其是在涉及实时数据或敏感信息的领域。此外,数据集的访问权限和隐私保护措施需要不断完善,以应对日益增长的数据安全和合规性要求。
发展历史
创建时间与更新
BigQuery Public Datasets于2016年首次发布,旨在为研究人员和开发者提供一个便捷的云端数据访问平台。自发布以来,该数据集持续更新,涵盖了多个领域的公共数据,包括天气、交通、经济等,以满足不同用户的需求。
重要里程碑
BigQuery Public Datasets的一个重要里程碑是其在2018年引入了全球范围内的天气数据,这一举措极大地扩展了数据集的应用范围,使得气象研究、农业规划等领域能够更高效地利用这些数据。此外,2020年,该数据集增加了对COVID-19相关数据的实时更新,为全球公共卫生研究提供了宝贵的资源。
当前发展情况
当前,BigQuery Public Datasets已成为全球范围内数据科学家和研究人员的重要工具,其数据涵盖了从历史记录到实时更新的广泛领域。该数据集不仅促进了跨学科的研究合作,还为政策制定者提供了基于数据的决策支持。随着技术的进步,BigQuery Public Datasets预计将继续扩展其数据种类和覆盖范围,进一步推动数据驱动的科学研究和应用创新。
发展历程
  • Google首次推出BigQuery服务,作为其云平台的一部分,旨在提供大规模数据集的快速分析能力。
    2010年
  • BigQuery Public Datasets项目启动,Google开始提供一系列公开数据集,供研究人员和开发者免费使用。
    2012年
  • BigQuery Public Datasets的规模和种类显著增加,涵盖了多个领域,如气候、金融、交通等。
    2015年
  • Google宣布BigQuery支持实时数据分析,进一步提升了其在大数据处理领域的竞争力。
    2018年
  • BigQuery Public Datasets继续扩展,增加了更多高质量的数据集,支持更广泛的研究和应用场景。
    2020年
常用场景
经典使用场景
在数据科学领域,BigQuery Public Datasets 提供了一个丰富的资源库,使得研究人员和数据分析师能够访问和分析大规模的公共数据集。这些数据集涵盖了多个领域,如气候变化、公共卫生、经济趋势等,为探索复杂的社会和自然现象提供了宝贵的数据支持。通过BigQuery的强大查询功能,用户可以快速提取和分析数据,从而揭示隐藏在海量数据中的模式和趋势。
衍生相关工作
BigQuery Public Datasets 的开放性和丰富性激发了许多相关研究和工作。例如,一些研究团队利用这些数据集开发了新的数据分析工具和算法,进一步提升了数据处理的效率和准确性。此外,许多学术论文和商业报告也基于这些数据集进行了深入分析,发表了大量有影响力的研究成果。这些衍生工作不仅扩展了数据集的应用范围,还推动了数据科学领域的整体发展。
数据集最近研究
最新研究方向
在云计算和大数据分析领域,BigQuery Public Datasets作为Google Cloud Platform的重要组成部分,近年来吸引了广泛的研究关注。研究者们利用这一数据集,探索了大规模数据处理和实时分析的新方法。例如,通过结合机器学习和数据挖掘技术,研究者们开发了高效的预测模型,用于金融市场的趋势分析和公共卫生事件的监测。此外,BigQuery Public Datasets还被用于跨学科研究,如环境科学中的气候变化预测和社交媒体分析中的用户行为模式识别。这些研究不仅推动了数据科学的发展,也为实际应用提供了强有力的支持。
相关研究论文
  • 1
    BigQuery Public Datasets: A Treasure Trove for Data ScientistsGoogle AI · 2018年
  • 2
    Exploring BigQuery Public Datasets for COVID-19 ResearchGoogle Cloud · 2020年
  • 3
    BigQuery Public Datasets: A Comprehensive Analysis of Usage and ImpactStanford University · 2021年
  • 4
    Leveraging BigQuery Public Datasets for Financial Market AnalysisUniversity of Chicago · 2022年
  • 5
    BigQuery Public Datasets: A Review of Recent Advances and Future DirectionsMassachusetts Institute of Technology · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。

国家青藏高原科学数据中心 收录

AMASS_Retargeted_for_G1

这是一个针对G1人形机器人的AMASS数据集重定向版本,已经格式化为IsaacLab的AMP运动加载器使用,且与ProtoMotions兼容。

huggingface 收录

SHHS Sleep Heart Health Study Dataset

SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录