search-dataset

github2024-11-14 更新2024-11-28 收录

下载链接：

https://github.com/Chkhikvadze/ai-search-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析市场上领先的AI搜索提供者的性能，包括搜索摘要的相关性、链接内容的相关性、性能（秒）、嵌入相似性和预期答案的相关性。数据集帮助用户和开发者了解不同AI搜索平台的性能，以便做出明智的选择。

This dataset is designed to analyze the performance of leading AI search providers in the market, covering metrics including the relevance of search snippets, relevance of linked content, performance (in seconds), embedding similarity, and relevance to expected answers. It helps users and developers gain insights into the performance of various AI search platforms to make informed choices.

创建时间：

2024-11-02

原始信息汇总

AI Search Providers Benchmark 数据集概述

数据集来源

来源: Talc AI SearchBench 仓库
文件位置: dataset/data.jsonl

数据集结构

数据集包含以下字段：

Question: 发送到AI搜索提供者的查询。
Result: 提供者返回的摘要文本。
Search Results: 包含提供者返回的网页链接、标题和描述。
Response Time: 从提供者接收响应的时间，以毫秒为单位。

示例响应

json { "id": "c0683ac6-baee-4e2a-9290-8b734b777301", "question": "What did safety reviews conclude about the danger of experiments at the Large Hadron Collider?", "result": "Safety reviews have consistently concluded that the experiments at the Large Hadron Collider pose no significant risk to the public or the environment.", "search_results": [ { "title": "CERNs Safety Assessment", "url": "https://home.cern/science/experiments/safety", "description": "An overview of the safety measures and assessments conducted by CERN regarding the LHC experiments." }, { "title": "LHC Safety: Public Concerns Addressed", "url": "https://www.scientificamerican.com/article/lhc-safety-public-concerns/", "description": "This article addresses public concerns about the safety of the LHC and explains why these fears are unfounded." } ], "response_time": 10 }

数据集分类

数据集分为以下四大类别：

Simple: 基本问题，需要最少的分析。
Complex: 需要跨多个来源综合分析的问题。
Hallucination Inducing: 包含错误前提的问题，用于测试AI的事实准确性。
News: 答案因最近发展而变化的问题。

数据获取过程

数据获取: 使用简单的抓取脚本从各个AI搜索提供者处提取数据。
存储位置: 抓取的数据存储在results目录中。

未来方向

更新计划: 定期更新基准，以反映AI搜索技术的最新进展。
用户反馈: 欢迎用户提供反馈，以改进基准的实用性和用户导向性。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式是通过从多个领先的AI搜索提供商中收集数据，包括Datura、You.com、OpenAI ChatGPT、Perplexity、Google Gemini、Andi Search和X Grok。这些数据是通过自定义的抓取脚本从各提供商的公开资源中提取的，确保了数据的广泛性和代表性。数据集的构建过程包括从可信来源抓取有趣的事实和课程，创建代表这些事实的问答集，并调整查询的语调、风格和分布，以最佳匹配实际用户需求。

特点

该数据集的特点在于其全面性和实用性。它涵盖了从简单到复杂的多种问题类型，包括基础问题、需要多源综合的复杂问题、诱导幻觉的问题以及与新闻相关的问题。此外，数据集还特别关注了Twitter相关内容的摘要和链接内容的相关性，为分析AI搜索提供商在社交媒体领域的性能提供了独特视角。

使用方法

使用该数据集时，用户可以通过运行位于`./scraper`目录中的抓取脚本来准备不同提供商的结果，并将结果存储在`results`目录中。随后，用户可以按照评分指南对结果进行本地评分。数据集的响应结构包括问题、结果、搜索结果和响应时间等字段，提供了详尽的分析基础。

背景与挑战

背景概述

在人工智能驱动的搜索技术迅速发展的背景下，search-dataset数据集应运而生。该数据集由Talc AI团队创建，旨在通过分析和比较市场上领先的AI搜索提供商的性能，为用户和开发者提供有价值的见解。数据集的核心研究问题集中在评估不同AI搜索引擎在摘要文本相关性、链接内容相关性、性能和嵌入相似性等方面的表现。自创建以来，search-dataset已成为评估和优化AI搜索技术的重要工具，对推动该领域的创新和发展具有显著影响。

当前挑战

search-dataset在构建过程中面临多项挑战。首先，由于许多AI搜索提供商未提供直接的数据检索API，团队需开发自定义的抓取脚本以收集数据。其次，评估AI搜索性能的复杂性在于需要综合考虑多个关键因素，如摘要文本相关性、链接内容相关性、响应时间和嵌入相似性。此外，确保数据集的实时性和适应性，以反映AI搜索技术的最新进展，也是一项持续的挑战。这些挑战共同构成了search-dataset在推动AI搜索技术发展中的重要课题。

常用场景

经典使用场景

在人工智能搜索领域，search-dataset数据集被广泛用于评估和比较不同AI搜索提供商的性能。该数据集通过收集来自多个领先AI搜索平台（如Datura、OpenAI ChatGPT、Google Gemini等）的搜索结果，进行详尽的性能分析。其经典使用场景包括：通过对比各提供商在摘要文本相关性、链接内容相关性、响应时间及嵌入相似性等方面的表现，帮助研究人员和开发者选择最适合其需求的AI搜索平台。

解决学术问题

search-dataset数据集解决了在AI搜索领域中常见的学术研究问题，如评估不同搜索算法的有效性和效率。通过提供一个标准化的基准，该数据集使得研究人员能够系统地比较和分析各种AI搜索技术的优劣，从而推动该领域的技术进步。此外，它还为研究AI搜索的上下文相关性和实时性能提供了宝贵的数据支持，增强了学术界对AI搜索技术实际应用的理解。

衍生相关工作

search-dataset数据集的发布催生了一系列相关研究和工作。例如，基于该数据集的分析，研究人员开发了新的评估指标和方法，以更全面地衡量AI搜索系统的性能。同时，该数据集也激发了对AI搜索技术在特定领域（如社交媒体分析和新闻实时更新）应用的研究。此外，一些开源项目和工具也基于search-dataset数据集开发，旨在帮助开发者更方便地进行AI搜索系统的性能测试和优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集