five

arcee-drug-tool-sft

收藏
Hugging Face2026-05-19 更新2026-05-20 收录
下载链接:
https://huggingface.co/datasets/lokahq/arcee-drug-tool-sft
下载链接
链接失效反馈
官方服务:
资源简介:
Arcee Drug Tool SFT Unique Prompt 是一个用于药物发现工具调用的监督微调数据集,专为Loka药物发现工具链设计。该数据集通过清理和规范化处理,将原始多轮次合并数据替换为每个归一化用户提示的单一规范轨迹,以提高数据质量和一致性。数据集包含训练集和测试集,分别有340行和85行,对应340个和85个唯一用户提示,估计token数量分别为1,420,543和378,274。数据划分确保训练和测试提示无重叠,测试提示在监督微调期间完全未见。数据字段包括JSON编码的聊天消息字符串(prompt和completion)以及纯文本辅助字段(prompt_text和completion_text),便于工具调用SFT兼容性及数据检查。该数据集适用于文本生成任务,特别是药物发现领域的工具调用和监督微调场景。

Arcee Drug Tool SFT Unique Prompt is a supervised fine-tuning dataset for drug discovery tool invocation, specifically designed for the Loka drug discovery toolchain. The dataset is cleaned and normalized, replacing raw multi-round merged data with a single canonical trajectory per normalized user prompt to enhance data quality and consistency. It includes training and test sets with 340 and 85 rows, corresponding to 340 and 85 unique user prompts, with estimated token counts of 1,420,543 and 378,274, respectively. The data split ensures no overlap between training and test prompts, with test prompts being completely unseen during SFT. Data fields comprise JSON-encoded chat message strings (prompt and completion) and plain text auxiliary fields (prompt_text and completion_text), facilitating tool invocation SFT compatibility and data inspection. The dataset is suitable for text generation tasks, particularly in drug discovery tool invocation and supervised fine-tuning scenarios.
创建时间:
2026-05-13
原始信息汇总

数据集概述

名称:Arcee Drug Tool SFT Unique Prompt
链接https://huggingface.co/datasets/lokahq/arcee-drug-tool-sft

任务类型

  • 文本生成(text-generation)

语言

  • 英语(en)

数据划分

划分 行数 唯一提示(unique prompts) 估计 Token 数
训练集(train) 340 340 1,420,543
测试集(test) 85 85 378,274
  • 训练集与测试集的提示哈希(prompt-hash)重叠率为 0。

数据内容

  • 数据集是经过清洗的工具调用 SFT 数据集,用于 Loka 药物发现推理流程。
  • 数据集包含 prompt(提示)和 completion(完成)两列,均为 JSON 编码的聊天消息字符串,兼容 Arcee 工具调用 SFT 格式。
  • 另有 prompt_textcompletion_text 两列,为纯文本辅助字段,用于检查和轻量过滤。

筛选策略

  1. 基于之前融合的 Opus 4.6 和 Sonnet 4.6 语料。
  2. 删除包含无效提示/完成 JSON、缺失工具调用、缺失最终答案、通用启动答案或不支持工具的行。
  3. 按归一化的用户提示(normalized user prompt)对行进行分组。
  4. 针对每个提示,根据确定性质量分数选取一条规范轨迹(canonical trace)。
  5. 按提示组(而非按行)划分数据,确保测试集提示在 SFT 训练中不可见。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自先前的Opus 4.6与Sonnet 4.6合并语料库,经过精细化清洗与重构而成。构建过程中,首先剔除了包含无效JSON、缺失工具调用、缺少最终答案、存在通用启动回答或不支持工具的样本行。随后按标准化后的用户提示进行分组,并基于确定性质量评分指标,为每个提示精选出一条最优轨迹。训练集与测试集按提示组而非数据行划分,确保测试提示在监督微调阶段完全未见。同时保留了JSON编码的对话消息字段以兼容工具调用微调,并提供了纯文本辅助字段便于检查。
特点
该数据集专为Loka药物发现框架设计,聚焦于工具调用能力的监督微调。其核心特点在于每条标准化用户提示仅对应一条高质量轨迹,摒弃了多轮合并中的冗余数据,显著提升了数据精炼度。训练集与测试集分别包含340条和85条唯一提示,且提示哈希值无重叠,保障了评估的公平性。数据集规模精简但信息密度高,预估总token数近180万,兼顾了训练效率与模型性能。字段设计兼顾机器解析与人工审查,为药物发现场景下的工具调用学习提供了可靠基础。
使用方法
该数据集适用于基于Arcee框架的工具调用监督微调任务,尤其是药物发现领域。使用时,可直接加载`prompt`和`completion`字段作为JSON编码的对话消息输入,兼容标准工具调用微调流程。也可利用`prompt_text`和`completion_text`字段进行快速浏览或轻量级过滤。建议按官方提供的`train`与`test`划分使用,确保测试集提示不参与训练,从而准确评估模型泛化能力。对于需要定制训练逻辑的场景,可依据数据集大小灵活调整批次与学习率等超参数。
背景与挑战
背景概述
在药物发现领域,大语言模型与工具调用能力的深度融合正成为加速科研进程的关键技术路径。arcee-drug-tool-sft数据集由Arcee团队于近期创建,旨在为Loka药物发现框架提供高质量的监督微调数据,核心研究问题聚焦于通过精细化的轨迹清洗与去重策略,提升模型在药物发现工具调用场景下的指令遵循能力。该数据集从Opus 4.6与Sonnet 4.6的合并语料中精心筛选,最终保留425条规范化后的唯一轨迹,并确保训练与测试集在提示层次上无重叠,为评估模型泛化性能提供了严谨基础。作为面向垂直科研领域的工具调用数据集,它不仅填补了药物发现专用指令数据的空白,也为后续构建更可靠、更专业的科学助手模型树立了数据预处理的新标杆。
当前挑战
该数据集所应对的领域核心挑战在于:药物发现流程高度依赖多步工具调用与精确的中间结果推理,现有通用模型常因训练数据中噪声、冗余或无效轨迹的干扰而表现不稳定,亟需构建一条清晰、无歧义且完整的工具调用训练路径。在数据构建过程中,团队面临多重技术难题:首先,需从大规模多回合对话中识别并剔除无效JSON、缺失工具调用或最终答案的记录,数据清洗涉及复杂格式校验与语义过滤;其次,面对同一用户提示产生的多条冗余轨迹,必须设计确定性质量评分机制以挑选唯一最优路径,这要求对工具调用顺序、结果准确性及推理连贯性进行综合量化评估;最终,还需确保按提示组而非单条记录进行划分,使模型在微调后能真正面对未见过的测试指令,避免数据泄漏风险。
常用场景
经典使用场景
在药物发现与智能制药的交叉领域中,大语言模型(LLM)正逐步从单纯的文本生成工具演变为具备工具调用能力的智能代理(Agent)。Arcee Drug Tool SFT数据集正是为此类Agent的监督微调(SFT)而精心构建的。其经典使用场景聚焦于训练模型理解并执行药物发现工作流中的结构化工具调用,例如分子性质预测、靶点对接模拟或化合物数据库检索。数据集中每条样本均包含规范化的用户查询与对应的工具调用轨迹(trace),使模型学会在特定药物研发情境下,准确判断何时调用何种外部工具、如何解析工具返回结果并整合成最终回答。这种端到端的工具调用训练范式,显著提升了模型在药物发现任务中自主决策与多步推理的能力。
解决学术问题
该数据集有力地回应了当前学术界在LLM与科学工具集成方面的若干核心困境。首先,它缓解了工具调用数据质量参差不齐的问题——通过严格的数据清洗策略(剔除无效JSON、缺失工具调用或泛化回答的样本),为后续研究提供了高置信度的训练基准。其次,它解决了“提示重复”引发的数据泄露风险:采用按归一化提示分组后仅保留单一最优轨迹的分割策略,确保训练集与测试集中无相同提示出现,从而更真实地评估模型对未见工具的泛化性能。这一设计为探究“少量专家轨迹是否优于大量噪声数据”提供了实验基础,推动了工具调用数据集构建方法论的发展。
衍生相关工作
该数据集的发布催生了一系列衍生性研究工作,尤其在工具调用监督微调的数据质量优化与训练策略探索方面。其一,研究人员利用其“单规范轨迹”设计理念,验证了少而精的高质量演示样本在工具调用任务中优于海量低质量数据的观点,进而提出了“质量评分优先”的数据筛选框架。其二,该数据集推动了面向科学领域的工具调用benchmark构建工作,例如将其中药物发现特定工具扩展至分子动力学模拟、反应路径搜索等更广泛场景,形成跨域工具调用能力评估体系。此外,有工作在此基础上引入强化学习反馈机制,利用数据集的确定性质量分数作为奖励信号,进一步提升模型在复杂多步工具调用中的鲁棒性与自适应能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作