SSR-RCoT-16K
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/Nanbeige/SSR-RCoT-16K
下载链接
链接失效反馈官方服务:
资源简介:
SSR-RCoT-16K 是一个公开的16K子集,源自《Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation》论文中介绍的数据构建流程。该数据集旨在支持通用任务的强大推理能力,特别是在高质量响应可用但缺乏链式思维注释的现实场景中。通过SSR-D(蒸馏结构骨架引导推理)方法,将高质量的(查询,响应)对转化为结构化的反向链式思维训练样本,使现有响应数据可用于推理监督。每个示例围绕一个(查询,响应)对构建,并包括通过自我改进流程构建的迭代响应改进记录、SSR结构骨架、功能标签以及由SSR-D构建的反向链式思维轨迹。数据集适用于推理模型的训练和蒸馏、研究反向链式思维生成中的后验合理化、比较不同跟踪生成方法等。数据为合成生成,可能存在后验合理化的固有脆弱性。
创建时间:
2026-03-13



