One-Query Dataset

github2024-11-06 更新2024-11-28 收录

下载链接：

https://github.com/Laoyu84/4onebench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含51个one-sentence tasks，用于评估LLMs的Routine-Gen能力。

本数据集涵盖51项单句任务（one-sentence tasks），旨在评估大语言模型（LLMs）的常规生成（Routine-Gen）能力。

创建时间：

2024-11-04

原始信息汇总

4-One Bench 数据集概述

数据集目的

4-One Bench 旨在创建一个轻量级的评估系统，帮助用户快速评估大型语言模型（LLMs）在业务场景中的Routine-Gen能力。

评估内容

对OpenAI、Zhipu、Ali Cloud和Doubao的模型进行了Routine-Gen准确性评估。
评估结果展示了各模型在Routine-Gen任务中的表现。

数据集特点与架构

架构设计

采用Generator-Verifier设计模式。
Generator根据预定义的知识图谱将任务转换为Routine。
Verifier使用LLMs验证生成的Routine。

四大特点

One-Query：包含51个“一句话任务”。
One-Knowledge Graph：基于任务构建的知识图谱，描述IT资产关系，用户可自定义。
One-Shot：仅评估LLMs在一次尝试中成功生成Routine的可能性，考虑响应时间和准确性。
One-Syntax：开发了专有的语法定义IT资产的编排，用户可自定义。

支持的LLMs

OpenAI: gpt-4o, gpt-4o-mini
Zhipu: glm-4-plus, glm-4-0520, glm-4-flash, glm-4-air
Ali Cloud: qwen-max, qwen-plus
Bytedance: doubao-pro-32k
Deepseek: deepseek-chat

使用方法

创建并激活虚拟环境。
安装依赖项。
使用脚本启动评估。

联系方式

关注微信公众号获取更新。
发送邮件至uncleyu89@gmail.com咨询问题。

许可证

该项目基于Apache License 2.0。

搜集汇总

数据集介绍

构建方式

在构建One-Query Dataset时，研究团队精心设计了一个包含51个单句任务的数据集。这些任务旨在模拟实际业务场景中的需求，通过预定义的知识图谱来指导大语言模型生成相应的流程。此外，用户还可以根据自身需求定义个性化的知识图谱，从而扩展数据集的应用范围。这种基于知识图谱的生成方式，不仅确保了任务的多样性，还增强了数据集的灵活性和实用性。

特点

One-Query Dataset的显著特点在于其独特的“四一”架构，即One-Query、One-Knowledge Graph、One-Shot和One-Syntax。其中，One-Query确保了任务的简洁性和明确性；One-Knowledge Graph提供了生成流程的指导框架；One-Shot则聚焦于单次尝试的成功率，以模拟真实业务环境中的高效性；而One-Syntax则定义了IT资产编排的专有语法，赋予用户高度的自定义能力。这些特点共同构成了数据集的核心竞争力，使其在评估大语言模型在业务流程生成中的表现时具有显著优势。

使用方法

使用One-Query Dataset进行评估时，用户首先需创建并激活一个新的虚拟环境，随后安装所需的依赖包。通过运行提供的脚本，用户可以启动评估系统，并利用该系统对支持的大语言模型进行评估。具体操作包括使用Streamlit运行app/app.py文件，从而实现对模型在单句任务生成流程中的准确性和效率的全面评估。此外，用户还可以根据需要自定义知识图谱和语法，以适应不同的业务场景和需求。

背景与挑战

背景概述

在基于大型语言模型（LLM）的智能体中，日常任务生成（Routine-Gen）是至关重要的组成部分，它使智能体能够有效协调IT资产（如API）以完成任务。然而，在商业环境中评估LLM在日常任务生成中的有效性缺乏系统性方法。为此，**4-One Bench**数据集应运而生，旨在创建一个轻量级的评估系统，帮助用户快速评估LLM的日常任务生成能力。该数据集由51个“一句话任务”组成，通过生成器-验证器设计模式，结合知识图谱和自定义语法，对多个知名LLM（如OpenAI、Zhipu、Ali Cloud等）的日常任务生成准确性进行了评估。

当前挑战

尽管4-One Bench数据集在评估LLM的日常任务生成能力方面取得了显著进展，但其构建和应用过程中仍面临若干挑战。首先，数据集依赖于预定义的知识图谱，这限制了其对复杂或动态任务的适应性。其次，单次尝试的评估模式虽然考虑了响应时间和准确性，但可能忽略了多次尝试下的优化潜力。此外，自定义语法的使用虽然提供了灵活性，但也增加了用户的学习成本和系统复杂性。最后，数据集的轻量级特性可能限制了其在更广泛商业场景中的应用深度和广度。

常用场景

经典使用场景

在自然语言处理领域，One-Query Dataset 主要用于评估大型语言模型（LLMs）在业务环境中生成常规任务的能力。该数据集包含51个简短的任务描述，通过这些描述，模型需要生成相应的IT资产调度指令。这种评估方式特别适用于需要快速响应和高准确性的业务场景，如API调度和IT资源管理。

衍生相关工作

基于One-Query Dataset，许多研究工作聚焦于提升LLMs在生成常规任务时的效率和准确性。例如，有研究通过优化知识图谱的结构来提高任务解析的精度，也有工作专注于改进生成语法的灵活性和可扩展性。这些衍生工作不仅丰富了数据集的应用场景，也推动了LLMs在实际业务中的技术进步。

数据集最近研究