BeeTrove OpenAI GPTs Statistics Dataset

github2024-04-30 更新2024-05-31 收录

下载链接：

https://github.com/beetrove/openai-gpts-data

下载链接

链接失效反馈

官方服务：

资源简介：

这个OpenAI自定义GPTs数据集旨在成为一个研究、开发、商业和纯粹好奇心的宝库。它包含约349K自定义GPTs的详细历史数据。该数据集完全免费，遵循Apache 2.0许可。

This OpenAI custom GPTs dataset is designed to serve as a treasure trove for research, development, commercial use, and pure curiosity. It encompasses detailed historical data of approximately 349K custom GPTs. The dataset is entirely free and adheres to the Apache 2.0 license.

创建时间：

2024-02-29

原始信息汇总

数据集概述

数据集名称

名称：BeeTrove - OpenAI GPTs Statistics Dataset
描述：该数据集包含约349,000个Custom GPTs的详细历史数据，旨在为研究、开发、商业和好奇心提供洞察。

数据集内容

数据量：约349,000个Custom GPTs的数据。
数据类型：历史数据，包括性能指标如对话次数、星级评价、评论等。

数据获取

样本数据：
- 5%随机数据样本，提供Excel和Google Sheets格式。
- 顶级过滤数据，包含100次以上对话的GPTs。
完整数据：
- 可通过Google Drive下载，包含ETL Stage 3的CSV文件。
- 历史和原始数据可在ETL Stage 1和2中获取。

数据处理

ETL流程：
- Stage 1：从GPT页面爬取原始嵌套JSON数据。
- Stage 2：将嵌套JSON数据转换为平面CSV文件。
- Stage 3：通过处理完整历史数据，编译包含最新详情和性能指标时间线的简化表格。

数据监控

开始监控：
- 349K GPTs监控始于2024-01-20。
- OpenAI GPT Store首页监控始于2024-03-02。

许可证

许可证：Apache License 2.0，允许免费使用、修改、分发和商业利用，需包含适当的归属和许可证文本。

数据引用

引用格式：
- APA、MLA和BibTeX格式提供。

数据来源

合规性：数据爬取遵守OpenAI的指南，符合OpenAI的robots.txt规定。

搜集汇总

数据集介绍

构建方式

该数据集通过网络爬虫技术，历时数天，从互联网上收集了约349,000个自定义GPT的详细历史数据。数据采集始于2024年1月20日，对这些GPT的详细信息进行持续监控，直至2024年3月2日，进一步监控OpenAI GPT商店首页的变化，以观察首页可见性对GPT各项指标的影响。数据处理采用ETL流程，首先提取原始的嵌套JSON数据，随后将其转换为扁平的CSV文件，最终通过数据归一化处理，生成包含最新详细信息和性能指标时间线的简化表格。

特点

该数据集具有广泛的应用潜力，涵盖研究、开发、商业分析及纯粹的学术好奇心。其特点在于提供了丰富的历史数据，包括GPT的对话次数、评分、评论等详细信息，且数据格式经过优化，便于分析和处理。此外，数据集的开放性和免费使用特性，鼓励社区协作，促进对自定义GPT的深入理解和应用。

使用方法

用户可通过下载示例文件或从Google Drive获取完整数据集，进行初步探索和分析。示例文件包括5%的随机样本和对话次数超过100的GPT数据，用户可根据需求选择合适的文件进行分析。对于更深入的研究，用户可访问ETL Stage 1和Stage 2的历史和原始数据，进行更复杂的数据处理和分析。数据集的使用需遵循Apache 2.0许可证，确保正确引用和归属。

背景与挑战

背景概述

BeeTrove OpenAI GPTs Statistics Dataset 是由独立分析顾问 André Mafei 创建的一个开放数据集，旨在为研究、开发、商业应用及纯粹的探索提供丰富的洞察。该数据集包含了约349,000个自定义GPT的详细历史数据，涵盖了从2024年1月20日开始监控的GPT信息，以及从2024年3月2日开始对OpenAI GPT商店首页的监控数据。通过这个数据集，研究者和开发者可以深入分析GPT的表现指标，如对话次数、评分和评论等，从而推动对GPT技术的理解和应用。

当前挑战

该数据集面临的挑战主要集中在数据采集和处理过程中。首先，数据是通过网络爬虫技术从公开的GPT页面中提取的，这要求爬虫技术必须高效且符合OpenAI的规范。其次，原始数据为嵌套的JSON格式，需要经过复杂的ETL（提取、转换、加载）过程，将其转换为易于分析的CSV格式。此外，由于数据量庞大，如何在有限的计算资源下高效处理和分析这些数据也是一个重要的挑战。最后，如何确保数据的准确性和一致性，特别是在监控GPT商店首页变化时，也是一个需要解决的问题。

常用场景

经典使用场景

BeeTrove OpenAI GPTs Statistics Dataset 的经典使用场景主要集中在对自定义GPTs的性能和行为进行深入分析。研究者可以通过该数据集探索不同GPTs的对话数量、评分、评论等指标，从而评估其受欢迎程度和用户满意度。此外，该数据集还可用于研究GPTs在OpenAI GPT Store首页的可见性对其表现的影响，为优化GPTs的设计和推广策略提供数据支持。

实际应用

在实际应用中，BeeTrove OpenAI GPTs Statistics Dataset 被广泛用于优化GPTs的设计和推广策略。企业可以利用该数据集分析其GPTs在市场中的表现，识别用户偏好，并据此调整产品功能和营销策略。此外，该数据集还可用于培训和教育领域，帮助开发者和研究人员更好地理解GPTs的工作原理和优化方法，从而提升其开发效率和产品质量。

衍生相关工作

BeeTrove OpenAI GPTs Statistics Dataset 的发布催生了一系列相关研究和工作。研究者基于该数据集开展了关于GPTs性能评估、用户行为分析和市场策略优化的研究，发表了多篇学术论文。此外，开发者社区也利用该数据集开发了多种分析工具和可视化平台，如BeeTrove提供的示例仪表盘，进一步推动了GPTs领域的技术进步和应用创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集