PomboLabs/TRACE
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/PomboLabs/TRACE
下载链接
链接失效反馈官方服务:
资源简介:
TRACE是一个用于应用行为分析(ABA)临床任务的合成指令调优数据集,具体包括教学程序生成和行为会话解释两个任务。该数据集旨在为研究目的服务,特别是用于在ABA风格的指令遵循上微调小型语言模型。TRACE基于经典的ABA文献(如Cooper、Heron和Heward 2020;VB-MAPP;AFLS等),并通过分类驱动的生成器生成,每个示例都包含完整的来源元数据,记录了生成过程中采样的确切分类单元。数据集经过临床准确性迭代,并通过从业者参与审查确保质量。TRACE适用于研究ABA风格的指令遵循、分类驱动的合成生成以及小型语言模型评估,但不适用于自主临床决策、与真实客户数据结合使用、医疗诊断或法律及保险文件。
TRACE is a synthetic instruction-tuning dataset for two clinical tasks in Applied Behavior Analysis (ABA): teaching program generation and behavioral session interpretation. It is designed for research purposes, particularly for fine-tuning small language models on ABA-flavored instruction-following. The dataset is grounded in the canonical ABA literature (Cooper, Heron, & Heward 2020; VB-MAPP; AFLS; key JABA papers) and was produced by a taxonomy-driven generator that records full provenance metadata for each example, detailing the exact taxonomy cells sampled during generation. Clinical accuracy was iterated via practitioner-in-the-loop ad-hoc review. TRACE is intended for research on ABA-flavored instruction-following, taxonomy-driven synthetic generation, and small-LM evaluation, but it is not for autonomous clinical decisions, training on or combining with real client data, medical diagnosis, or legal or insurance documentation.
提供机构:
PomboLabs
搜集汇总
数据集介绍

构建方式
TRACE数据集以应用行为分析(ABA)领域的专业分类学体系为基石,通过分类学驱动的生成器构建而成。该生成器严格参照Cooper、Heron与Heward(2020)等经典ABA文献,以及VB-MAPP、AFLS等标准化评估工具,构建受控词汇表。生成过程中,首先从分类学中采样临床配置并根据临床频率加权,随后应用兼容性规则(如无错误纠错仅匹配最简至最多提示策略),计算模板插槽后随机渲染用户内容与助手回复,最终为每条样本标注元数据,完整记录采样出处。所有数据均为合成生成,无任何真实客户记录参与,并经过从业者参与的逐条临床准确性审核。
使用方法
该数据集以JSONL格式存储,每条样本包含标准的ChatML结构,即system、user与assistant三轮对话,并附带包含任务类型、金标准标签与完整出处信息的meta字段。用户可直接使用messages字段对小型语言模型(如Gemma E2B)进行指令微调,训练时需设置mask_prompt为true以屏蔽提示部分。推荐的微调策略为采用4位QLoRA。评估时可采用独立的测试集(281条样本),通过金标准标签计算任务特定指标。此外,通过出处信息,用户可便捷地按分类学单元格筛选子集,进行消融研究或复现实验。
背景与挑战
背景概述
TRACE数据集由Drexel大学的Festus Kahunla于2026年创建,由Pombo Labs维护发布,旨在为应用行为分析领域构建首个面向小型语言模型的指令微调合成数据集。该数据集核心解决两大临床任务:基于学习者档案与技能目标的ABA教学程序生成,以及跨会话行为日志的临床模式解读。通过将VB-MAPP、AFLS等标准化课程体系与Cooper等权威文献衍生的分类学术语相结合,TRACE实现了对临床知识的结构化编码。数据集包含2,999个标注示例,覆盖离散回合教学、自然情境教学、任务分析及会话解读四大领域,其精密的分类学驱动生成范式为临床自然语言处理研究开辟了新路径,尤其为资源受限场景下的小模型临床辅助能力探索提供了关键数据基座。
当前挑战
在领域问题层面,ABA临床实践面临两大挑战:首先,教学程序编制高度依赖经验丰富的行为分析师,标准化程度低且人力资源稀缺;其次,会话数据解读需要整合多维度行为测量、功能分析与模式识别,人工处理耗时且易受主观偏差影响。在数据集构建层面,挑战体现为:确保合成数据的临床准确性需建立复杂的分类学术语体系并经过实践者迭代审查;生成过程需平衡教学分布的真实性与模型学习的可行性,避免罕见临床模式被稀释;同时需严格规避真实患者数据的使用,通过完全合成的方式保护隐私,这对知识编码的完整性提出了极高要求。
常用场景
经典使用场景
TRACE数据集的核心用途在于微调小型语言模型,使其能够执行应用行为分析(ABA)中的两项经典临床任务:教学方案生成与行为会话解读。具体而言,模型需根据学习者画像与技能目标,产出结构化的离散试验教学(DTT)、自然情境教学(NET)或任务分析/链锁教学方案,涵盖刺激控制、提示层级、强化计划、纠错步骤、掌握标准及泛化安排等核心要素。同时,模型还需基于多会话行为日志,识别临床变化模式(如突增、技能退化、刺激控制转移),分析行为功能,并生成干预建议与危机预案,从而辅助行为分析师进行临床决策。
解决学术问题
该数据集系统性地解决了行为分析领域中临床自然语言处理数据匮乏的学术难题。长期以来,ABA研究受限于真实临床数据的高度敏感性、隐私保护要求及标注成本高昂,难以构建大规模、高质量的指令微调语料。TRACE通过分类学驱动的合成数据生成框架,首次提供了覆盖三大教学策略、十二种临床轨迹模式及丰富行为功能假设的结构化训练集,支持因果可追溯与可复现性。这一方法学贡献不仅拓展了合成数据在临床决策支持系统中的理论边界,还为评估小型语言模型在专业文档生成、模式识别及推理能力上的表现提供了基准,推动了临床NLP数据管线的标准化发展。
实际应用
在实际应用层面,TRACE赋能行为分析师和教育机构借助轻量级语言模型快速起草教学方案初稿与行为干预讨论点。例如,在自闭症早期干预中心,分析师可输入学习者当前的VB-MAPP评估结果与特定教学目标,模型即时生成包含阶梯式提示褪除计划、强化时间表及纠错流程的DTT教案草案,显著缩短方案撰写时间。在行为会诊场景中,模型能根据连续多日的行为频次、持续时间及ABC数据,自动识别功能假设并标注置信度,辅助团队聚焦关键临床问题。该数据集设计的“草拟与审核”工作流,确保最终方案始终由持证行为分析师把关,实现了效率提升与专业安全之间的平衡。
数据集最近研究
最新研究方向
TRACE数据集聚焦于应用行为分析(ABA)领域的临床文本生成,开创性地通过分类法驱动的合成数据生成范式,为小语言模型在结构化临床文档任务中的指令微调提供基石。当前研究前沿围绕两大核心任务——基于学习者画像与技能目标的教学程序生成,以及基于多会话行为日志的临床解读——旨在突破传统ABA实践中依赖专家手工撰写文档的瓶颈。该数据集与个性化ABA辅助系统等热点事件紧密关联,其核心意义在于通过可追溯的元数据架构和分层采样策略,确保合成数据的临床准确性与领域可解释性,为构建安全、合规的临床决策支持系统奠定方法论基础,并推动行为分析领域自然语言处理技术的标准化评估。
以上内容由遇见数据集搜集并总结生成



