five

Chrome Extension `manifest.json` Dataset

收藏
github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/palant/chrome-extension-manifests-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含超过100k个Chrome扩展的`manifest.json`文件,这些文件是从Chrome Web Store通过网络爬虫收集的。数据集添加了一些元数据作为前导,以提供上下文,例如扩展名称和发布者、评分和用户计数。

This repository contains over 100k `manifest.json` files of Chrome extensions, which were collected from the Chrome Web Store using web crawlers. The dataset has been augmented with leading metadata to provide context, such as extension names and publishers, ratings, and user counts.
创建时间:
2021-11-30
原始信息汇总

数据集概述

数据集名称

Chrome Extension manifest.json Dataset (>100k Extensions)

数据集内容

包含超过100,000个Chrome扩展的manifest.json文件,这些文件是从Chrome Web Store收集的。数据集还包括扩展的元数据,如扩展名称、发布者、评分和用户数。

数据集更新

  • 2023-06-01:manifest.json文件数量从10,000增加到超过50,000。
  • 2023-11-29:manifest.json文件数量增加到超过100,000,并更新了元数据格式,如用户数超过10,000,000的记录、ISO格式的发布日期等。

数据集用途

用于分析Chrome扩展生态系统,例如请求的权限、常见的内容安全策略等。

数据集工具

便利脚本

  • query.js:允许根据指定条件列出当前快照中的扩展。
  • compare.js:比较两个快照并列出匹配的扩展。

脚本使用

  • 默认使用“当前”快照目录,可通过命令行参数指定不同的源目录。
  • 查询和比较脚本支持自定义输出格式和过滤条件。

示例查询

  • 列出所有Manifest V3扩展。
  • 列出至少有10,000用户的Manifest V3扩展。
  • 列出使用unsafe-eval内容安全策略的扩展。
  • 列出请求所有网站权限的扩展。
  • 比较两个快照中名称变更的流行扩展。
  • 比较用户数显著增加的流行扩展。
  • 列出新加入且用户数高的扩展。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从Chrome Web Store中抓取超过10万份扩展程序的`manifest.json`文件构建而成。这些文件包含了扩展程序的核心配置信息,并通过添加元数据(如扩展名称、发布者、评分和用户数量)来增强其上下文信息。数据集的构建过程在2023年6月1日和11月29日的快照中有所调整,分别将数据量从1万增加到5万和10万以上,同时对元数据格式进行了更新,例如用户数量上限提升至1000万以上,发布日期采用ISO格式,并移除了部分字段。
特点
该数据集的显著特点在于其庞大的规模和丰富的元数据,涵盖了超过10万份扩展程序的详细配置信息。此外,数据集的动态更新机制允许用户比较不同时间点的快照,从而分析扩展程序的变化趋势。数据集还提供了灵活的查询和比较工具,用户可以通过JavaScript代码自定义查询条件,筛选出符合特定标准的扩展程序,并支持多种输出格式,便于进一步分析和处理。
使用方法
用户可以通过提供的`query.js`和`compare.js`脚本对数据集进行查询和比较。`query.js`允许用户根据特定条件筛选扩展程序,而`compare.js`则支持对两个快照中的扩展程序进行对比,找出变化或新增的扩展。用户可以通过命令行参数自定义查询条件和输出格式,例如筛选出使用Manifest V3的扩展程序,或查找用户数量大幅增长的扩展。这些工具为研究Chrome扩展生态系统提供了强大的支持。
背景与挑战
背景概述
Chrome Extension `manifest.json` Dataset 是一个包含超过10万份Chrome扩展程序的`manifest.json`文件的数据集,这些文件通过抓取Chrome Web Store获得。该数据集由匿名研究人员或机构创建,旨在分析Chrome扩展生态系统中的权限请求、内容安全策略等关键问题。数据集的构建始于2023年,通过多次抓取更新,数据量从最初的1万份扩展程序增加到超过10万份,提供了丰富的扩展程序元数据,如扩展名称、发布者、评分和用户数量等。该数据集的创建受到了[@IAmMandatory](https://infosec.exchange/@mandatory)创建的类似数据集的启发,旨在为研究者提供一个全面的Chrome扩展生态系统分析工具。
当前挑战
该数据集面临的挑战主要包括两个方面:一是数据抓取过程中的技术难题,如如何高效且合规地抓取大量扩展程序的`manifest.json`文件,以及如何处理抓取过程中遇到的格式变化和元数据更新;二是数据分析中的复杂性,如如何从海量的扩展程序中提取有价值的信息,分析权限请求的模式和内容安全策略的使用情况,以及如何识别和处理扩展程序的更新和变化。此外,数据集的持续更新和维护也是一个挑战,尤其是在Chrome Web Store的规则和扩展生态系统不断变化的情况下。
常用场景
经典使用场景
Chrome Extension `manifest.json` Dataset 数据集的经典使用场景主要集中在对Chrome扩展生态系统的深入分析。研究者可以利用该数据集探索扩展程序的权限请求、内容安全策略(CSP)的常见配置、以及不同版本Manifest文件的差异。例如,通过分析`manifest.json`文件中的`permissions`字段,研究者可以识别出哪些扩展程序请求了过多的权限,从而评估潜在的安全风险。此外,该数据集还可用于研究扩展程序的用户增长趋势、版本更新频率及其对用户行为的影响。
实际应用
在实际应用中,Chrome Extension `manifest.json` Dataset 数据集被广泛用于安全评估、隐私保护和扩展程序开发。安全研究人员可以利用该数据集识别潜在的恶意扩展程序,评估其权限请求的合理性,并提出改进建议。隐私保护机构则可以通过分析扩展程序的内容安全策略,评估其对用户隐私的潜在威胁。此外,开发者可以借鉴该数据集中的最佳实践,优化其扩展程序的权限管理和内容安全策略,提升用户体验和安全性。
衍生相关工作
基于Chrome Extension `manifest.json` Dataset 数据集,已衍生出多项经典工作。例如,有研究者利用该数据集分析了扩展程序的权限滥用问题,提出了基于权限最小化的安全策略。此外,还有研究聚焦于扩展程序的用户增长模式,提出了预测用户增长的模型。在内容安全策略方面,研究者通过分析不同扩展程序的CSP配置,提出了改进建议,以减少潜在的安全风险。这些工作不仅丰富了Web安全领域的研究,还为扩展程序的开发和安全管理提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作