测试数据库

github2024-09-18 更新2024-09-19 收录

下载链接：

https://github.com/tonybaloney/data-driven-workshop

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含150个服装项目的测试数据库，这些项目是通过GPT-4o生成的，每个项目包含图像、文本嵌入和文本描述。

A test database consisting of 150 clothing items, all generated via GPT-4o. Each item includes an image, a text embedding, and a text description.

创建时间：

2024-08-29

原始信息汇总

Data Driven AI Workshop 数据集概述

数据集内容

包含超过150个测试数据项，这些数据项是虚构服装店中的服装商品。
每个商品包含以下字段：
- name: 商品名称
- description: 商品描述
- price: 商品价格
商品描述和名称由GPT-4o生成，商品图片由DALL-e 3生成。

数据生成

可以通过/api/generate_test_data端点生成新的测试数据。
生成的数据会添加到src/api/data/test.json文件中。

嵌入向量

数据集中的商品描述包含由text-embedding-3-small模型生成的嵌入向量。
可以通过/api/generate_embeddings端点自动生成嵌入向量。

查询准备

在使用向量搜索时，通常需要将用户查询转换为适合向量搜索的形式。
可以使用GPT模型从用户查询中提取关键词，以进行向量搜索。

示例数据

示例数据中的第40个商品为： json "name": "Amber Glow Sweater", "description": "A cozy, amber orange sweater with a chunky knit design. Ideal for keeping warm during autumn and winter.", "price": 59.99,
该商品的图片由DALL-e 3生成，位于src/html/images/products/40.jpeg。

支持的模型

支持Azure Computer Vision中的Florence模型，用于图像嵌入。
Florence模型在图像嵌入方面表现优于GPT-4o的文本描述嵌入。

错误处理

常见错误包括Azurite存储模拟器未运行导致的连接拒绝错误。

搜集汇总

数据集介绍

构建方式

测试数据库的构建基于GPT-4o模型，通过生成虚拟服装商店的商品数据来实现。每件商品包含名称、描述和价格等字段，这些数据由GPT-4o根据预设的提示生成。此外，每件商品还附带由DALL-e 3生成的图像，以及由text-embedding-3-small模型生成的文本嵌入。这些嵌入用于支持向量搜索功能，使得用户可以基于文本相似性进行高效的商品检索。

特点

测试数据库的主要特点在于其数据生成的自动化和多样性。通过GPT-4o和DALL-e 3的结合，数据集不仅包含了丰富的文本信息，还涵盖了高质量的图像内容。此外，数据集中的每件商品都配备了预计算的嵌入向量，这使得向量搜索成为可能，极大地提升了数据检索的效率和准确性。

使用方法

使用测试数据库时，用户首先需要克隆项目并启动DevContainer。接着，创建Python虚拟环境并安装所需的Python包。通过更新local.settings.json文件，用户可以集成OpenAI模型与后端应用。随后，运行web服务器和后端函数主机服务器。用户还可以通过/api/generate_test_data端点生成额外的测试数据，并通过/api/generate_embeddings端点自动生成嵌入向量。

背景与挑战

背景概述

测试数据库数据集由数据驱动AI工作坊创建，旨在为虚拟服装店的商品提供丰富的测试数据。该数据集包含了超过150件服装商品，每件商品均包含图像、文本嵌入以及商品描述等信息。这些数据通过GPT-4o模型生成，旨在模拟真实世界中的商品信息，为AI研究提供高质量的测试样本。测试数据库的创建不仅为图像和文本嵌入技术的研究提供了宝贵的资源，还为开发者在构建和测试AI应用时提供了可靠的数据支持。

当前挑战

测试数据库在构建过程中面临的主要挑战包括数据生成的多样性和准确性。由于数据是通过GPT-4o模型自动生成，确保生成的商品信息既多样化又符合实际需求是一个复杂的过程。此外，数据集的维护和更新也是一个持续的挑战，特别是在模型和生成算法不断进步的情况下，如何保持数据集的前沿性和实用性需要不断的努力和创新。

常用场景

经典使用场景

在数据驱动的AI工作坊中，测试数据库被广泛用于生成和测试虚拟服装商店的产品数据。通过GPT-4o模型生成的产品描述和DALL-e 3生成的图像，该数据集为开发者提供了一个丰富的虚拟商品库，用于测试和优化基于文本和图像的搜索算法。

衍生相关工作

基于测试数据库，许多研究工作得以展开，特别是在AI模型的评估和优化方面。例如，有研究利用该数据集进行文本嵌入和图像嵌入的对比实验，探讨不同模型在处理多模态数据时的表现。此外，该数据集还促进了在Azure平台上进行大规模数据处理和分析的相关工作。

数据集最近研究