five

linear-bench-mini

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/hubertmarek/linear-bench-mini
下载链接
链接失效反馈
官方服务:
资源简介:
linear-bench-mini数据集是一个在Agent Diff隔离引擎中运行的Linear GraphQL API的基准测试套件。它包含用于创建问题、移动状态、添加标签等CRUD风格任务的交互数据。数据集以MIT许可发布。
创建时间:
2025-11-15
原始信息汇总

Linear Bench Mini 数据集概述

数据集基本信息

  • 数据集名称: linear-bench-mini
  • 许可证: MIT
  • 标签: agent-evals, linear, graphql

文件结构

  • data/train.jsonl
  • dataset_infos.json
  • seeds/linear_default.json

数据集背景

Linear Bench套件在Agent Diff隔离引擎中运行,使用其自己的Postgres模式重放Linear GraphQL API。智能体通过Linear的公共接口进行交互,以满足CRUD风格的任务(创建问题、移动状态、添加标签等)。

使用信息

更多信息请访问:https://github.com/hubert-marek/agent-diff

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,线性基准测试数据集的构建采用了创新的隔离引擎技术,通过Agent Diff框架模拟真实环境。该数据集基于Linear GraphQL API的完整交互流程,使用Postgres数据库架构重放实际场景,确保数据生成过程的可靠性和一致性。构建过程中,开发人员精心设计了CRUD式任务序列,涵盖问题创建、状态迁移和标签管理等核心操作,从而生成结构化的训练数据。
特点
线性基准测试数据集展现出多维度技术特征,其核心在于完全复现了Linear平台的公开接口生态。数据集包含动态交互轨迹记录,能够精确反映智能体在GraphQL环境下的行为模式。通过预设的种子配置和任务模板,数据集提供了标准化的评估基准,同时支持对智能体操作序列的细粒度分析,为研究复杂工作流场景下的智能体表现奠定基础。
使用方法
该数据集的应用需依托Agent Diff实验框架,研究人员可通过加载标准JSON格式的训练文件启动评估流程。使用时应先配置隔离环境,确保GraphQL接口的准确重放,继而执行预定义的智能体任务序列。数据集支持对智能体行为轨迹的完整记录与分析,用户可参照开源文档中的技术规范,灵活调整测试参数以适配不同的研究需求。
背景与挑战
背景概述
线性基准测试套件作为智能体评估领域的前沿工具,由开源社区开发者于2024年构建,其核心目标在于验证人工智能代理在复杂图查询语言环境下的任务执行能力。该数据集通过模拟Linear平台完整的GraphQL应用程序接口,构建出包含数据创建、读取、更新与删除操作的标准化测试场景,为评估智能体在真实业务工作流中的推理与操作效能提供了关键基准。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决智能体对嵌套式GraphQL查询的语义解析难题,以及跨多个数据实体的事务性操作一致性维护;在构建过程中,既要确保隔离引擎与原始Postgres架构的精准同步,又需克服动态API响应数据与静态测试用例之间的语义对齐障碍。
常用场景
经典使用场景
在智能体评估领域,linear-bench-mini数据集通过模拟Linear平台的GraphQL接口环境,为自主代理系统提供了标准化的任务执行平台。其核心场景聚焦于训练代理完成问题跟踪系统中的典型操作,例如创建工单、更新状态或添加分类标签,这些操作在软件项目管理中具有普遍性。数据集通过隔离测试引擎确保每次实验的可复现性,为多轮交互式任务提供了稳定的验证基础。
实际应用
在实际部署层面,该数据集可直接应用于软件开发团队的自动化流程优化。基于其构建的代理系统能够自主处理Jira、Asana等项目管理工具中的例行操作,显著减少人工干预需求。在持续集成环境中,此类智能体可实时响应代码提交事件并自动创建跟踪工单,形成开发运维闭环,提升团队协作效率与问题追溯能力。
衍生相关工作
围绕该数据集衍生的经典研究包括Agent Diff框架的持续优化,其通过动态模式注入技术扩展了测试覆盖范围。后续工作如GraphQL智能体响应验证系统,创新性地引入了语义一致性检测机制。这些衍生成果共同推动了交互式代理在API合成、状态预测等方向的发展,为构建企业级自动化解决方案奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作