Chrome UX Report (CrUX) datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/crissyfield/crux-dumps

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含每月Chrome用户体验报告的数据转储，通过BigQuery导出origin和rank列，按排名分组URL，并以XZ压缩格式存储。数据集用于更准确地捕捉最受欢迎的网站列表，比其他网站排名列表如Alexa的Top-Million或Tranco List更准确。

This dataset comprises monthly data dumps from the Chrome User Experience Report, exported via BigQuery, featuring the origin and rank columns. URLs are grouped by their rankings and stored in XZ compressed format. The dataset is utilized to more accurately capture the list of the most popular websites, offering greater precision compared to other website ranking lists such as Alexa's Top-Million or the Tranco List.

创建时间：

2023-03-17

原始信息汇总

数据集概述

本数据集名为“Chrome Top Website Dumps”，包含从Chrome用户体验报告（CrUX）中提取的月度数据集。数据集通过BigQuery导出origin和rank列，并按排名分组，存储为XZ压缩的归档文件。

数据集结构

数据生成方式：通过BigQuery导出数据，分组并压缩存储。
数据内容：包含网站的origin和rank信息。
数据格式：XZ压缩的归档文件。

数据集访问

元数据存储：每个文件夹中的meta.json文件包含不同数据集的元数据。
访问示例：使用命令行工具下载并解压最新top-1000网站的数据。

数据集版本与大小

2024年

月份	报告	元数据	条目数	总大小
5月	202405	meta.json	18673241	95.9 MiB
4月	202404	meta.json	18703230	96.1 MiB
3月	202403	meta.json	18669191	95.9 MiB
2月	202402	meta.json	18729879	96.2 MiB
1月	202401	meta.json	18583729	95.5 MiB

2023年

月份	报告	元数据	条目数	总大小
12月	202312	meta.json	17323447	89.3 MiB
11月	202311	meta.json	18265721	94.0 MiB
10月	202310	meta.json	18383755	94.5 MiB
9月	202309	meta.json	18405462	94.7 MiB
8月	202308	meta.json	18263523	93.3 MiB
7月	202307	meta.json	17976663	92.1 MiB
6月	202306	meta.json	18065718	92.6 MiB
5月	202305	meta.json	18377791	94.2 MiB
4月	202304	meta.json	18406973	94.2 MiB
3月	202303	meta.json	18495210	94.8 MiB
2月	202302	meta.json	18184396	93.3 MiB
1月	202301	meta.json	18203637	93.4 MiB

2022年

月份	报告	元数据	条目数	总大小
12月	202212	meta.json	16824271	86.7 MiB
11月	202211	meta.json	17618944	90.6 MiB
10月	202210	meta.json	17637195	90.8 MiB
9月	202209	meta.json	17715277	89.0 MiB
8月	202208	meta.json	16754655	84.3 MiB
7月	202207	meta.json	16190453	81.4 MiB
6月	202206	meta.json	16230572	81.6 MiB
5月	202205	meta.json	11024795	55.6 MiB
4月	202204	meta.json	8602902	42.4 MiB
3月	202203	meta.json	8555307	42.2 MiB
2月	202202	meta.json	8763848	43.2 MiB
1月	202201	meta.json	8934350	44.1 MiB

2021年

月份	报告	元数据	条目数	总大小
12月	202112	meta.json	8398796	41.6 MiB
11月	202111	meta.json	8733078	43.2 MiB
10月	202110	meta.json	8784894	43.5 MiB
9月	202109	meta.json	8660068	42.9 MiB
8月	202108	meta.json	8431699	41.8 MiB
7月	202107	meta.json	8174923	40.5 MiB
6月	202106	meta.json	8416608	41.6 MiB
5月	202105	meta.json	8411670	41.5 MiB
4月	202104	meta.json	8423302	41.5 MiB
3月	202103	meta.json	8326310	41.0 MiB
2月	202102	meta.json	8264371	40.7 MiB

搜集汇总

数据集介绍

构建方式

Chrome UX Report (CrUX) 数据集的构建基于Google Chrome浏览器的用户体验报告。该数据集通过从Google BigQuery中导出`origin`和`rank`列，并使用XZ压缩算法对数据进行压缩，从而生成每月更新的数据快照。具体而言，数据集的构建过程包括从CrUX数据集中提取相关列，按排名分组URL，并将这些分组后的URL存储为压缩档案。此过程确保了数据的高效存储和传输，同时保留了关键的用户体验信息。

使用方法

访问Chrome UX Report (CrUX) 数据集的用户可以通过`meta.json`文件获取各月数据的元数据信息。例如，用户可以使用`curl`命令从GitHub仓库中获取最新的前1000个网站的URL，并通过`xzcat`命令解压缩数据。此外，数据集的非累积性要求用户根据具体需求选择合适的排名段进行下载和分析。这种灵活的使用方式使得研究人员和开发者能够根据实际需求高效地利用数据集。

背景与挑战

背景概述

Chrome UX Report (CrUX) 数据集由Google开发，旨在提供关于全球网站用户体验的详尽数据。该数据集自2021年2月起开始发布，主要研究人员和机构包括Google及其合作伙伴。其核心研究问题在于通过收集和分析用户在Chrome浏览器中的行为数据，以评估和提升网站的用户体验。CrUX数据集的发布对互联网用户体验研究领域产生了深远影响，为研究人员和开发者提供了宝贵的数据资源，以优化网页性能和用户满意度。

当前挑战

CrUX数据集在构建和应用过程中面临多项挑战。首先，数据收集的准确性是一个关键问题，尤其是在与其他网站排名列表（如Alexa和Tranco）的比较中，CrUX数据集需要确保其数据的精确性和可靠性。其次，数据处理的复杂性也是一个挑战，由于数据量庞大，如何高效地从Google BigQuery中导出数据并进行压缩存储，是一个技术难题。此外，数据集的非累积性也增加了数据管理和分析的复杂性，研究人员需要针对不同时间点的数据进行独立分析，以确保结果的准确性。

常用场景

经典使用场景

在网络性能分析领域，Chrome UX Report (CrUX) 数据集的经典使用场景主要集中在网站排名和用户行为分析。通过提取和分析 `origin` 和 `rank` 列，研究人员和开发者能够精确地识别出全球最受欢迎的网站，并深入了解这些网站的用户体验质量。这种分析不仅有助于优化网站性能，还能为市场营销和竞争分析提供宝贵的数据支持。

解决学术问题

Chrome UX Report (CrUX) 数据集在学术研究中解决了多个关键问题。首先，它提供了比传统网站排名列表（如Alexa和Tranco）更为准确的数据，帮助研究人员更精确地评估网站的流行度和用户访问模式。其次，该数据集通过详细的用户体验指标，如页面加载时间和用户交互数据，为网络性能优化和用户体验研究提供了坚实的基础。这些数据不仅提升了研究的准确性，还推动了相关领域的理论和实践发展。

实际应用

在实际应用中，Chrome UX Report (CrUX) 数据集被广泛用于网站性能监控和优化。企业利用这些数据来识别和解决影响用户体验的关键问题，从而提升用户满意度和留存率。此外，市场营销团队通过分析网站排名和用户行为数据，制定更有效的营销策略。数据集的高准确性和详细性使其成为企业和研究机构不可或缺的工具。

数据集最近研究