five

WORFBENCH|大型语言模型数据集|工作流生成数据集

收藏
arXiv2024-10-10 更新2024-10-12 收录
大型语言模型
工作流生成
下载链接:
https://github.com/zjunlp/WorFBench
下载链接
链接失效反馈
资源简介:
WORFBENCH是由浙江大学和阿里巴巴集团共同创建的一个统一的工作流生成基准数据集,旨在评估大型语言模型(LLMs)在复杂任务分解中的能力。该数据集涵盖了四个复杂场景,包括问题解决、函数调用、具身规划和开放式规划,包含18k训练样本和2146测试样本。数据集通过严格的质控和数据过滤,确保了工作流图的复杂性和准确性。WORFBENCH的应用领域主要集中在提升LLMs在下游任务中的表现,通过生成高效的工作流图,减少推理时间并提高任务完成效率。
提供机构:
浙江大学
创建时间:
2024-10-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
WORFBENCH的构建方式体现了多方面的复杂性和精细度。首先,数据集涵盖了四个复杂的场景,包括问题解决、函数调用、具身规划和开放式规划,确保了多样性和广泛的应用范围。其次,工作流程被建模为有向无环图(DAG),这种结构能够更精确地表示现实世界中复杂的串行或并行结构。此外,数据集通过引入节点链和拓扑排序算法进行严格的质量控制和数据过滤,确保了图结构的合理性和有效性。最后,WORFEVAL协议利用子序列和子图匹配算法,对LLM代理的工作流程生成能力进行准确量化评估。
使用方法
WORFBENCH的使用方法多样且灵活。首先,研究者可以利用该数据集来训练和评估大型语言模型(LLM)在生成复杂工作流程方面的能力。其次,WORFEVAL协议提供了一套系统的评估方法,可以用于量化评估LLM代理在不同结构工作流程中的表现。此外,数据集的多场景覆盖和复杂图结构设计,使得它适用于各种需要高级推理和规划能力的应用场景,如自动化任务分解、智能代理的规划和执行等。
背景与挑战
背景概述
WORFBENCH, introduced by researchers from Zhejiang University and Alibaba Group, is a unified workflow generation benchmark designed to address the limitations of existing workflow evaluation frameworks. These frameworks often focus solely on holistic performance, suffer from restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. WORFBENCH aims to provide a comprehensive evaluation platform by incorporating multi-faceted scenarios and intricate graph workflow structures. The benchmark was created to assess the capabilities of Large Language Models (LLMs) in decomposing complex problems into executable workflows, a critical step in reasoning and planning tasks. The introduction of WORFBENCH and its accompanying evaluation protocol, WORFEVAL, marks a significant advancement in the field, offering a rigorous and systematic approach to quantifying the workflow generation capabilities of LLM agents.
当前挑战
The development of WORFBENCH presents several challenges. Firstly, the benchmark must address the limited scope of scenarios in existing frameworks, which often only focus on function call tasks. Secondly, there is a need to move beyond linear relationships between subtasks and incorporate more complex graph structures that reflect real-world scenarios. Thirdly, evaluations must move away from reliance on models like GPT-3.5/4, which can exhibit hallucinations and ambiguity, to ensure a more systematic and accurate assessment. Additionally, the construction of WORFBENCH involves rigorous quality control and data filtering to ensure the integrity and reliability of the benchmark. The ultimate challenge is to create a benchmark that not only evaluates the workflow generation capability of LLM agents but also enhances their performance in downstream tasks, enabling them to achieve superior performance with reduced inference time.
常用场景
经典使用场景
WORFBENCH 数据集的经典使用场景在于评估大型语言模型(LLMs)在生成复杂工作流程方面的能力。该数据集通过多方面的场景和复杂的图结构工作流程,为LLMs提供了一个统一的基准。研究者可以利用WORFBENCH来测试和比较不同LLMs在处理推理和规划任务时的表现,特别是在将复杂问题分解为可执行工作流程的能力上。
解决学术问题
WORFBENCH 数据集解决了现有工作流程评估框架中的几个关键问题,包括场景覆盖有限、工作流程结构简单以及评估标准宽松等。通过引入多方面场景和复杂的图结构工作流程,WORFBENCH 提供了一个系统性的评估协议,利用子序列和子图匹配算法准确量化LLM代理的工作流程生成能力。这不仅提升了评估的准确性和全面性,还为LLMs在实际应用中的部署提供了更可靠的依据。
实际应用
在实际应用中,WORFBENCH 数据集可以帮助开发者和研究者优化和验证LLMs在生成工作流程方面的性能。例如,在自动化任务规划、智能代理系统和企业流程自动化等领域,WORFBENCH 可以作为基准工具,帮助评估和改进LLMs在这些复杂任务中的表现。此外,通过WORFBENCH 的评估,可以发现LLMs在处理不同类型任务时的优势和不足,从而指导模型的进一步优化和应用。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的推动下,复杂问题分解为可执行工作流程的能力得到了显著提升。然而,现有工作流程评估框架在场景覆盖、结构复杂性和评估标准方面存在局限。为此,WORFBENCH应运而生,它是一个统一的工作流程生成基准,具备多方面场景和复杂图结构。WORFEVAL作为系统评估协议,利用子序列和子图匹配算法,精确量化LLM代理的工作流程生成能力。通过全面评估不同类型的LLMs,研究发现LLM代理在序列规划和图规划能力之间存在显著差距,即使是GPT-4也显示出约15%的差距。此外,训练的开源模型在保留任务上的泛化能力也得到了评估。生成的流程能够增强下游任务,使其在推理过程中以更少的时间实现更优的性能。
相关研究论文
  • 1
    Benchmarking Agentic Workflow Generation浙江大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录