five

judged_science_completions

收藏
Hugging Face2025-08-06 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/reasoning-proj/judged_science_completions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置具有不同的特征和分割信息。特征包括问题、答案内容、参考答案、ID、元数据、模型名称、验证器分数、变异答案内容以及多个连续字段。分割信息包括分割名称、字节数、示例数、下载大小和数据集大小。数据似乎与包含附加元数据和分数的问题和答案数据相关。
创建时间:
2025-08-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: reasoning-proj/judged_science_completions
  • 数据集地址: https://huggingface.co/datasets/reasoning-proj/judged_science_completions

数据集配置

数据集包含多个配置,每个配置针对不同的模型和条件:

  1. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.madversarial.cont.wrong.reasoning.t10

    • 样本数量: 231
    • 数据集大小: 59,180,832 字节
    • 下载大小: 20,740,453 字节
  2. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.madversarial.cont.wrong.reasoning.t30

    • 样本数量: 231
    • 数据集大小: 57,204,034 字节
    • 下载大小: 20,098,291 字节
  3. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.complete.step.t10

    • 样本数量: 231
    • 数据集大小: 55,428,360 字节
    • 下载大小: 19,628,618 字节
  4. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.complete.step.t30

    • 样本数量: 231
    • 数据集大小: 51,080,577 字节
    • 下载大小: 18,138,158 字节
  5. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.complete.step.t50

    • 样本数量: 231
    • 数据集大小: 46,465,234 字节
    • 下载大小: 16,679,143 字节
  6. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.complete.step.t70

    • 样本数量: 231
    • 数据集大小: 41,819,951 字节
    • 下载大小: 15,509,587 字节
  7. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.complete.step.t90

    • 样本数量: 231
    • 数据集大小: 38,165,220 字节
    • 下载大小: 13,935,122 字节
  8. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.rewrite.trace.t10

    • 样本数量: 231
    • 数据集大小: 14,177,168 字节
    • 下载大小: 5,641,023 字节
  9. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.rewrite.trace.t30

    • 样本数量: 231
    • 数据集大小: 14,043,491 字节
    • 下载大小: 5,555,058 字节
  10. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.rewrite.trace.t50

    • 样本数量: 231
    • 数据集大小: 13,018,008 字节
    • 下载大小: 5,309,919 字节
  11. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.rewrite.trace.t70

    • 样本数量: 231
    • 数据集大小: 12,301,335 字节
    • 下载大小: 5,045,521 字节
  12. j_c.dfiltered.science.DeepSeek_R1_Distill_Qwen_1.5B.mbenign.rewrite.trace.t90

    • 样本数量: 231
    • 数据集大小: 不完整(数据未提供)
    • 下载大小: 不完整(数据未提供)

特征说明

所有配置包含以下特征:

  • question: 字符串类型,表示问题内容。
  • answer_content: 字符串类型,表示回答内容。
  • reference_answer: 字符串类型,表示参考回答。
  • id: 字符串类型,表示唯一标识符。
  • metadata: 结构体,包含question_source字段(字符串类型)。
  • model_name: 字符串类型,表示模型名称。
  • verifier_score: int64类型,表示验证分数。
  • mutated_answer_content: 字符串类型,表示变异的回答内容。
  • continuation_1 到 continuation_8: 字符串类型,表示不同的延续内容。
  • complete_answer_1 到 complete_answer_8: 字符串类型,表示完整的回答内容。
  • continuation_model: 字符串类型,表示延续模型名称。
  • verifier_score_1 到 verifier_score_8: int64类型,表示不同延续的验证分数。
搜集汇总
数据集介绍
main_image_url
构建方式
在科学问答领域,judged_science_completions数据集通过精细设计的对抗性生成与良性改写策略构建而成。该数据集以DeepSeek_R1_Distill_Qwen_1.5B模型为基础,采用多阶段文本延续技术生成8种变体回答,每个回答均经过验证器评分。数据构建过程特别关注错误推理场景的模拟,通过t10至t90不同阈值控制生成质量,形成包含231个科学问题的平行语料库。每个样本均包含原始问题、参考回答、变异回答及完整评分轨迹,确保数据构建的严谨性和可追溯性。
特点
该数据集最显著的特征在于其多维度的评分体系和丰富的回答变体。每个问题对应8组经过验证器评分的完整回答序列,评分范围覆盖1至8分的细致划分。数据结构上采用分层设计,既包含原始问题、参考回答等基础字段,也整合了问题来源、模型名称等元信息。特别值得注意的是,数据集通过madversarial和mbenign两种生成模式,分别呈现对抗性错误推理与良性改写两种文本特性,为研究语言模型的鲁棒性提供了对比素材。所有文本数据均经过严格过滤,确保语义连贯性和科学准确性。
使用方法
该数据集适用于科学问答系统的性能评估与改进研究。使用时可基于verifier_score字段进行模型输出质量排序分析,或通过对比complete_answer系列字段研究文本延续策略的效果。针对对抗性测试场景,可重点分析madversarial配置下的错误推理样本;若研究模型优化方向,则mbenign配置的改写轨迹更具参考价值。数据加载时需注意不同阈值配置(t10-t90)对应生成严格度的差异,建议根据研究目标选择特定子集或进行跨配置对比实验。所有文本字段支持直接用于自然语言处理任务,而结构化评分数据便于量化分析。
背景与挑战
背景概述
judged_science_completions数据集是近年来自然语言处理领域中针对科学问题回答质量评估的重要资源,由DeepSeek团队基于Qwen-1.5B模型构建。该数据集聚焦于科学类问题的多维度评估,通过设计不同温度参数下的回答续写实验,系统性地探索语言模型在科学推理、内容连贯性等方面的表现。其核心价值在于提供了包含原始问题、参考回答、模型生成内容及人工验证评分的完整评估框架,为研究社区建立了可量化的生成文本质量基准。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,科学类问题的专业性和逻辑严谨性要求模型生成内容具备准确的科学事实与合理的推理链条,这对评估体系的构建提出了更高要求;在构建过程中,需要平衡不同温度参数下生成内容的多样性与可靠性,同时确保人工验证评分标准的一致性。此外,数据集中包含的对抗性样本和良性样本的混合编排,也增加了数据质量控制与分析的复杂度。
常用场景
经典使用场景
在自然语言处理领域,judged_science_completions数据集被广泛应用于评估和优化语言模型的生成能力。该数据集通过提供科学问题的标准答案和多个模型生成的续写内容,为研究者提供了一个标准化的测试平台。特别是在模型对抗性训练和错误推理检测方面,数据集的多维度评分机制能够精确量化不同模型在复杂语境下的表现差异。
衍生相关工作
基于该数据集衍生的经典工作包括DeepSeek团队提出的对抗训练框架,以及Qwen系列模型的迭代优化研究。多项顶会论文利用其构建了新型评估指标TruthScore,开创了生成内容可信度量化的新方向。在ACL 2023等会议上,研究者们以此数据集为基础,提出了多种针对语言模型逻辑一致性的增强方法,推动了领域的技术进步。
数据集最近研究
最新研究方向
在自然语言处理领域,judged_science_completions数据集为科学问答系统的评估提供了重要基准。该数据集通过多维度评分机制,深入探究了模型生成答案的准确性与逻辑连贯性。当前研究聚焦于对抗性样本对模型推理能力的干扰,以及不同温度参数下生成结果的稳定性分析。随着大语言模型在科研辅助中的应用扩展,该数据集为优化模型抗干扰能力和提升科学事实一致性提供了关键数据支持。相关研究正推动着可信AI在学术领域的发展,特别是在检测模型幻觉和错误推理方面展现出独特价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作