five

Chrome UX Report (CrUX) datasets

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/crissyfield/crux-dumps
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含每月Chrome用户体验报告的数据转储,通过BigQuery导出origin和rank列,按排名分组URL,并以XZ压缩格式存储。数据集用于更准确地捕捉最受欢迎的网站列表,比其他网站排名列表如Alexa的Top-Million或Tranco List更准确。

This dataset comprises monthly data dumps from the Chrome User Experience Report, exported via BigQuery, featuring the origin and rank columns. URLs are grouped by their rankings and stored in XZ compressed format. The dataset is utilized to more accurately capture the list of the most popular websites, offering greater precision compared to other website ranking lists such as Alexa's Top-Million or the Tranco List.
创建时间:
2023-03-17
原始信息汇总

数据集概述

本数据集名为“Chrome Top Website Dumps”,包含从Chrome用户体验报告(CrUX)中提取的月度数据集。数据集通过BigQuery导出originrank列,并按排名分组,存储为XZ压缩的归档文件。

数据集结构

  • 数据生成方式:通过BigQuery导出数据,分组并压缩存储。
  • 数据内容:包含网站的originrank信息。
  • 数据格式:XZ压缩的归档文件。

数据集访问

  • 元数据存储:每个文件夹中的meta.json文件包含不同数据集的元数据。
  • 访问示例:使用命令行工具下载并解压最新top-1000网站的数据。

数据集版本与大小

2024年

月份 报告 元数据 条目数 总大小
5月 202405 meta.json 18673241 95.9 MiB
4月 202404 meta.json 18703230 96.1 MiB
3月 202403 meta.json 18669191 95.9 MiB
2月 202402 meta.json 18729879 96.2 MiB
1月 202401 meta.json 18583729 95.5 MiB

2023年

月份 报告 元数据 条目数 总大小
12月 202312 meta.json 17323447 89.3 MiB
11月 202311 meta.json 18265721 94.0 MiB
10月 202310 meta.json 18383755 94.5 MiB
9月 202309 meta.json 18405462 94.7 MiB
8月 202308 meta.json 18263523 93.3 MiB
7月 202307 meta.json 17976663 92.1 MiB
6月 202306 meta.json 18065718 92.6 MiB
5月 202305 meta.json 18377791 94.2 MiB
4月 202304 meta.json 18406973 94.2 MiB
3月 202303 meta.json 18495210 94.8 MiB
2月 202302 meta.json 18184396 93.3 MiB
1月 202301 meta.json 18203637 93.4 MiB

2022年

月份 报告 元数据 条目数 总大小
12月 202212 meta.json 16824271 86.7 MiB
11月 202211 meta.json 17618944 90.6 MiB
10月 202210 meta.json 17637195 90.8 MiB
9月 202209 meta.json 17715277 89.0 MiB
8月 202208 meta.json 16754655 84.3 MiB
7月 202207 meta.json 16190453 81.4 MiB
6月 202206 meta.json 16230572 81.6 MiB
5月 202205 meta.json 11024795 55.6 MiB
4月 202204 meta.json 8602902 42.4 MiB
3月 202203 meta.json 8555307 42.2 MiB
2月 202202 meta.json 8763848 43.2 MiB
1月 202201 meta.json 8934350 44.1 MiB

2021年

月份 报告 元数据 条目数 总大小
12月 202112 meta.json 8398796 41.6 MiB
11月 202111 meta.json 8733078 43.2 MiB
10月 202110 meta.json 8784894 43.5 MiB
9月 202109 meta.json 8660068 42.9 MiB
8月 202108 meta.json 8431699 41.8 MiB
7月 202107 meta.json 8174923 40.5 MiB
6月 202106 meta.json 8416608 41.6 MiB
5月 202105 meta.json 8411670 41.5 MiB
4月 202104 meta.json 8423302 41.5 MiB
3月 202103 meta.json 8326310 41.0 MiB
2月 202102 meta.json 8264371 40.7 MiB
搜集汇总
数据集介绍
main_image_url
构建方式
Chrome UX Report (CrUX) 数据集的构建基于Google Chrome浏览器的用户体验报告。该数据集通过从Google BigQuery中导出`origin`和`rank`列,并使用XZ压缩算法对数据进行压缩,从而生成每月更新的数据快照。具体而言,数据集的构建过程包括从CrUX数据集中提取相关列,按排名分组URL,并将这些分组后的URL存储为压缩档案。此过程确保了数据的高效存储和传输,同时保留了关键的用户体验信息。
使用方法
访问Chrome UX Report (CrUX) 数据集的用户可以通过`meta.json`文件获取各月数据的元数据信息。例如,用户可以使用`curl`命令从GitHub仓库中获取最新的前1000个网站的URL,并通过`xzcat`命令解压缩数据。此外,数据集的非累积性要求用户根据具体需求选择合适的排名段进行下载和分析。这种灵活的使用方式使得研究人员和开发者能够根据实际需求高效地利用数据集。
背景与挑战
背景概述
Chrome UX Report (CrUX) 数据集由Google开发,旨在提供关于全球网站用户体验的详尽数据。该数据集自2021年2月起开始发布,主要研究人员和机构包括Google及其合作伙伴。其核心研究问题在于通过收集和分析用户在Chrome浏览器中的行为数据,以评估和提升网站的用户体验。CrUX数据集的发布对互联网用户体验研究领域产生了深远影响,为研究人员和开发者提供了宝贵的数据资源,以优化网页性能和用户满意度。
当前挑战
CrUX数据集在构建和应用过程中面临多项挑战。首先,数据收集的准确性是一个关键问题,尤其是在与其他网站排名列表(如Alexa和Tranco)的比较中,CrUX数据集需要确保其数据的精确性和可靠性。其次,数据处理的复杂性也是一个挑战,由于数据量庞大,如何高效地从Google BigQuery中导出数据并进行压缩存储,是一个技术难题。此外,数据集的非累积性也增加了数据管理和分析的复杂性,研究人员需要针对不同时间点的数据进行独立分析,以确保结果的准确性。
常用场景
经典使用场景
在网络性能分析领域,Chrome UX Report (CrUX) 数据集的经典使用场景主要集中在网站排名和用户行为分析。通过提取和分析 `origin` 和 `rank` 列,研究人员和开发者能够精确地识别出全球最受欢迎的网站,并深入了解这些网站的用户体验质量。这种分析不仅有助于优化网站性能,还能为市场营销和竞争分析提供宝贵的数据支持。
解决学术问题
Chrome UX Report (CrUX) 数据集在学术研究中解决了多个关键问题。首先,它提供了比传统网站排名列表(如Alexa和Tranco)更为准确的数据,帮助研究人员更精确地评估网站的流行度和用户访问模式。其次,该数据集通过详细的用户体验指标,如页面加载时间和用户交互数据,为网络性能优化和用户体验研究提供了坚实的基础。这些数据不仅提升了研究的准确性,还推动了相关领域的理论和实践发展。
实际应用
在实际应用中,Chrome UX Report (CrUX) 数据集被广泛用于网站性能监控和优化。企业利用这些数据来识别和解决影响用户体验的关键问题,从而提升用户满意度和留存率。此外,市场营销团队通过分析网站排名和用户行为数据,制定更有效的营销策略。数据集的高准确性和详细性使其成为企业和研究机构不可或缺的工具。
数据集最近研究
最新研究方向
在网络性能与用户体验分析领域,Chrome UX Report (CrUX) 数据集的最新研究方向主要集中在提升数据集的准确性和实用性。通过与Cloudflare等平台的对比研究,CrUX数据集被证明在捕捉最受欢迎网站的准确性上具有显著优势,这为网络性能优化和用户体验改进提供了更为可靠的数据支持。此外,研究者们正致力于通过自动化工具和高效的数据处理技术,如BigQuery和XZ压缩,来简化数据获取和分析流程,从而推动该数据集在实际应用中的广泛采用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作