ASEED

github2024-04-30 更新2024-05-31 收录

下载链接：

https://github.com/sparticleinc/ASEED

下载链接

链接失效反馈

官方服务：

资源简介：

ASEED (AI Search Engine Evaluation Dataset) is a dataset rewritten based on real user search scenarios, which is used to evaluate the question-answering quality of current mainstream AI search engines.

ASEED（人工智能搜索引擎评估数据集）系基于真实用户搜索场景重新编写的数据集，旨在评估当前主流人工智能搜索引擎的问答质量。

创建时间：

2024-04-01

原始信息汇总

ASEED 数据集概述

数据集目的

ASEED (AI Search Engine Evaluation Dataset) 是一个基于真实用户搜索场景重写的数据集，用于评估当前主流AI搜索引擎的问题回答质量。

数据集构成

场景分布：
- 技术咨询：20%
- 实时新闻：20%
- 本地搜索：20%
- 产品搜索：20%
- 商业咨询：20%
- 总计：100%
语言分布：
- 英语：20%
- 日语：20%
- 简体中文：20%
- 繁体中文：20%
- 俄语：10%
- 韩语：10%
- 总计：100%

评估方法与结果

测试方法：
- 准确性：人工评估，实际答案与标准答案和关键词进行手动比较。
- 答案正确性：使用GPT-4模型进行评估，通过Ragas平台的评分系统计算。
评估指标：
- 准确性：基于人工评估的实际答案与标准答案和关键词的匹配程度。
- 答案正确性：通过GPT-4模型比较实际答案与标准答案的相关性。

产品评估结果

产品名称：Metaso、Perplexity、iAsk、You.com
准确性：
- Metaso：66.00%
- Perplexity：65.00%
- iAsk：60.00%
- You.com：34.00%
答案正确性：
- Metaso：62.70%
- Perplexity：65.22%
- iAsk：62.27%
- You.com：58.27%

未来计划

计划扩大评估测试集，增加更多语言和查询场景，以提供更全面和详细的性能评估。

搜集汇总

数据集介绍

构建方式

ASEED数据集的构建基于真实的用户搜索场景，旨在全面评估当前主流AI搜索引擎的问答质量。该数据集涵盖了多种语言，包括英语、日语、简体中文、繁体中文和俄语，确保了语言多样性。数据集的场景分布均匀，涵盖技术咨询、实时新闻、本地搜索、产品搜索和商业咨询等五大类，每类各占20%。此外，数据集通过手动标注和GPT-4模型进行双重验证，确保了数据的高质量和准确性。

特点

ASEED数据集的特点在于其多语言覆盖和场景多样性，能够全面反映全球用户在不同语言环境下的搜索需求。数据集的样本包括详细的查询、标准答案、断言类型和语言信息，便于进行深入的分析和评估。此外，数据集采用了手动评估和GPT-4评分相结合的方法，确保了评估结果的精确性和可靠性。

使用方法

ASEED数据集可用于评估和优化AI搜索引擎的问答能力。用户可以通过数据集中的查询和标准答案进行模型训练和测试，以提高搜索引擎的准确性和响应速度。数据集还提供了详细的评估方法和结果，用户可以根据这些信息调整和改进自己的模型。此外，数据集的多语言特性使其适用于全球范围内的搜索引擎优化和评估。

背景与挑战

背景概述

ASEED（AI Search Engine Evaluation Dataset）数据集是基于真实用户搜索场景构建的，旨在全面评估当前主流AI搜索引擎的问答质量。该数据集由一支专注于AI搜索引擎评估的研究团队创建，计划于2024年5月12日发布。ASEED的核心研究问题是如何通过标准化和综合性的数据集，准确评估AI搜索引擎在多语言环境下的表现。该数据集涵盖了英语、日语、简体中文、俄语和繁体中文等多种语言，并针对不同搜索场景（如技术咨询、实时新闻、本地搜索等）进行了初步测试和评估。ASEED的发布不仅为AI搜索引擎的性能评估提供了重要参考，还为全球用户在多语言环境下的搜索体验提供了科学依据。

当前挑战

ASEED数据集在构建过程中面临多重挑战。首先，多语言环境的复杂性使得数据集的构建和评估变得尤为困难，尤其是不同语言之间的语义差异和文化背景的多样性。其次，AI搜索引擎在不同语言和场景下的表现差异显著，如何确保评估的公平性和准确性是一个重要挑战。此外，数据集的扩展性也是一个关键问题，未来计划增加更多语言和查询场景，这将进一步增加数据集的复杂性和维护难度。最后，尽管ASEED已经通过手动评估和GPT-4评分系统进行了初步测试，但如何进一步提升评估的自动化程度和效率，仍是一个亟待解决的问题。

常用场景

经典使用场景

ASEED数据集的经典使用场景主要集中在对主流AI搜索引擎的问答质量进行全面评估。通过模拟真实用户的搜索场景，该数据集涵盖了技术咨询、实时新闻、本地搜索、产品搜索和商业咨询等多种情境，旨在为研究人员和开发者提供一个标准化的评估框架。

衍生相关工作

基于ASEED数据集，许多研究工作得以展开，包括但不限于多语言问答系统的性能评估、AI搜索引擎的跨语言表现分析以及问答质量的自动化评估方法。这些研究不仅推动了AI搜索引擎技术的发展，也为全球用户提供了更高质量的搜索体验。

数据集最近研究