Chrome UX Report (CrUX) datasets
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/crissyfield/crux-dumps
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含每月Chrome用户体验报告的数据转储,通过BigQuery导出origin和rank列,按排名分组URL,并以XZ压缩格式存储。数据集用于更准确地捕捉最受欢迎的网站列表,比其他网站排名列表如Alexa的Top-Million或Tranco List更准确。
This dataset comprises monthly data dumps from the Chrome User Experience Report, exported via BigQuery, featuring the origin and rank columns. URLs are grouped by their rankings and stored in XZ compressed format. The dataset is utilized to more accurately capture the list of the most popular websites, offering greater precision compared to other website ranking lists such as Alexa's Top-Million or the Tranco List.
创建时间:
2023-03-17
原始信息汇总
数据集概述
本数据集名为“Chrome Top Website Dumps”,包含从Chrome用户体验报告(CrUX)中提取的月度数据集。数据集通过BigQuery导出origin和rank列,并按排名分组,存储为XZ压缩的归档文件。
数据集结构
- 数据生成方式:通过BigQuery导出数据,分组并压缩存储。
- 数据内容:包含网站的
origin和rank信息。 - 数据格式:XZ压缩的归档文件。
数据集访问
- 元数据存储:每个文件夹中的
meta.json文件包含不同数据集的元数据。 - 访问示例:使用命令行工具下载并解压最新top-1000网站的数据。
数据集版本与大小
2024年
| 月份 | 报告 | 元数据 | 条目数 | 总大小 |
|---|---|---|---|---|
| 5月 | 202405 | meta.json | 18673241 | 95.9 MiB |
| 4月 | 202404 | meta.json | 18703230 | 96.1 MiB |
| 3月 | 202403 | meta.json | 18669191 | 95.9 MiB |
| 2月 | 202402 | meta.json | 18729879 | 96.2 MiB |
| 1月 | 202401 | meta.json | 18583729 | 95.5 MiB |
2023年
| 月份 | 报告 | 元数据 | 条目数 | 总大小 |
|---|---|---|---|---|
| 12月 | 202312 | meta.json | 17323447 | 89.3 MiB |
| 11月 | 202311 | meta.json | 18265721 | 94.0 MiB |
| 10月 | 202310 | meta.json | 18383755 | 94.5 MiB |
| 9月 | 202309 | meta.json | 18405462 | 94.7 MiB |
| 8月 | 202308 | meta.json | 18263523 | 93.3 MiB |
| 7月 | 202307 | meta.json | 17976663 | 92.1 MiB |
| 6月 | 202306 | meta.json | 18065718 | 92.6 MiB |
| 5月 | 202305 | meta.json | 18377791 | 94.2 MiB |
| 4月 | 202304 | meta.json | 18406973 | 94.2 MiB |
| 3月 | 202303 | meta.json | 18495210 | 94.8 MiB |
| 2月 | 202302 | meta.json | 18184396 | 93.3 MiB |
| 1月 | 202301 | meta.json | 18203637 | 93.4 MiB |
2022年
| 月份 | 报告 | 元数据 | 条目数 | 总大小 |
|---|---|---|---|---|
| 12月 | 202212 | meta.json | 16824271 | 86.7 MiB |
| 11月 | 202211 | meta.json | 17618944 | 90.6 MiB |
| 10月 | 202210 | meta.json | 17637195 | 90.8 MiB |
| 9月 | 202209 | meta.json | 17715277 | 89.0 MiB |
| 8月 | 202208 | meta.json | 16754655 | 84.3 MiB |
| 7月 | 202207 | meta.json | 16190453 | 81.4 MiB |
| 6月 | 202206 | meta.json | 16230572 | 81.6 MiB |
| 5月 | 202205 | meta.json | 11024795 | 55.6 MiB |
| 4月 | 202204 | meta.json | 8602902 | 42.4 MiB |
| 3月 | 202203 | meta.json | 8555307 | 42.2 MiB |
| 2月 | 202202 | meta.json | 8763848 | 43.2 MiB |
| 1月 | 202201 | meta.json | 8934350 | 44.1 MiB |
2021年
| 月份 | 报告 | 元数据 | 条目数 | 总大小 |
|---|---|---|---|---|
| 12月 | 202112 | meta.json | 8398796 | 41.6 MiB |
| 11月 | 202111 | meta.json | 8733078 | 43.2 MiB |
| 10月 | 202110 | meta.json | 8784894 | 43.5 MiB |
| 9月 | 202109 | meta.json | 8660068 | 42.9 MiB |
| 8月 | 202108 | meta.json | 8431699 | 41.8 MiB |
| 7月 | 202107 | meta.json | 8174923 | 40.5 MiB |
| 6月 | 202106 | meta.json | 8416608 | 41.6 MiB |
| 5月 | 202105 | meta.json | 8411670 | 41.5 MiB |
| 4月 | 202104 | meta.json | 8423302 | 41.5 MiB |
| 3月 | 202103 | meta.json | 8326310 | 41.0 MiB |
| 2月 | 202102 | meta.json | 8264371 | 40.7 MiB |
搜集汇总
数据集介绍

构建方式
Chrome UX Report (CrUX) 数据集的构建基于Google Chrome浏览器的用户体验报告。该数据集通过从Google BigQuery中导出`origin`和`rank`列,并使用XZ压缩算法对数据进行压缩,从而生成每月更新的数据快照。具体而言,数据集的构建过程包括从CrUX数据集中提取相关列,按排名分组URL,并将这些分组后的URL存储为压缩档案。此过程确保了数据的高效存储和传输,同时保留了关键的用户体验信息。
使用方法
访问Chrome UX Report (CrUX) 数据集的用户可以通过`meta.json`文件获取各月数据的元数据信息。例如,用户可以使用`curl`命令从GitHub仓库中获取最新的前1000个网站的URL,并通过`xzcat`命令解压缩数据。此外,数据集的非累积性要求用户根据具体需求选择合适的排名段进行下载和分析。这种灵活的使用方式使得研究人员和开发者能够根据实际需求高效地利用数据集。
背景与挑战
背景概述
Chrome UX Report (CrUX) 数据集由Google开发,旨在提供关于全球网站用户体验的详尽数据。该数据集自2021年2月起开始发布,主要研究人员和机构包括Google及其合作伙伴。其核心研究问题在于通过收集和分析用户在Chrome浏览器中的行为数据,以评估和提升网站的用户体验。CrUX数据集的发布对互联网用户体验研究领域产生了深远影响,为研究人员和开发者提供了宝贵的数据资源,以优化网页性能和用户满意度。
当前挑战
CrUX数据集在构建和应用过程中面临多项挑战。首先,数据收集的准确性是一个关键问题,尤其是在与其他网站排名列表(如Alexa和Tranco)的比较中,CrUX数据集需要确保其数据的精确性和可靠性。其次,数据处理的复杂性也是一个挑战,由于数据量庞大,如何高效地从Google BigQuery中导出数据并进行压缩存储,是一个技术难题。此外,数据集的非累积性也增加了数据管理和分析的复杂性,研究人员需要针对不同时间点的数据进行独立分析,以确保结果的准确性。
常用场景
经典使用场景
在网络性能分析领域,Chrome UX Report (CrUX) 数据集的经典使用场景主要集中在网站排名和用户行为分析。通过提取和分析 `origin` 和 `rank` 列,研究人员和开发者能够精确地识别出全球最受欢迎的网站,并深入了解这些网站的用户体验质量。这种分析不仅有助于优化网站性能,还能为市场营销和竞争分析提供宝贵的数据支持。
解决学术问题
Chrome UX Report (CrUX) 数据集在学术研究中解决了多个关键问题。首先,它提供了比传统网站排名列表(如Alexa和Tranco)更为准确的数据,帮助研究人员更精确地评估网站的流行度和用户访问模式。其次,该数据集通过详细的用户体验指标,如页面加载时间和用户交互数据,为网络性能优化和用户体验研究提供了坚实的基础。这些数据不仅提升了研究的准确性,还推动了相关领域的理论和实践发展。
实际应用
在实际应用中,Chrome UX Report (CrUX) 数据集被广泛用于网站性能监控和优化。企业利用这些数据来识别和解决影响用户体验的关键问题,从而提升用户满意度和留存率。此外,市场营销团队通过分析网站排名和用户行为数据,制定更有效的营销策略。数据集的高准确性和详细性使其成为企业和研究机构不可或缺的工具。
数据集最近研究
最新研究方向
在网络性能与用户体验分析领域,Chrome UX Report (CrUX) 数据集的最新研究方向主要集中在提升数据集的准确性和实用性。通过与Cloudflare等平台的对比研究,CrUX数据集被证明在捕捉最受欢迎网站的准确性上具有显著优势,这为网络性能优化和用户体验改进提供了更为可靠的数据支持。此外,研究者们正致力于通过自动化工具和高效的数据处理技术,如BigQuery和XZ压缩,来简化数据获取和分析流程,从而推动该数据集在实际应用中的广泛采用。
以上内容由遇见数据集搜集并总结生成



