five

Qwen3-Reasoning-Distill-Q-A-Dataset

收藏
Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/RefinedNeuro/Qwen3-Reasoning-Distill-Q-A-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Qwen3推理精炼土耳其问答数据集,包含六个STEM领域的问答对,为土耳其语推理任务设计,适用于六年级到十二年级的学生。数据集由qwen3-32b模型生成,用于微调RefinedNeuro土耳其推理v2模型。
创建时间:
2025-05-11
原始信息汇总

Qwen3 Reasoning Distill Q&A Dataset 概述

基本信息

  • 许可证: CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
  • 语言: 土耳其语 (tr), 英语 (en)
  • 数据集名称: Qwen3 Reasoning Distilled Turkish Question Answer Dataset
  • 大小分类: 10K<n<100K
  • 标签: biology, chemistry, math, synthetic, geometry, statistics, trigonometry
  • 任务分类: question-answering, text-generation

作者

  • Mehmet Can Farsak
  • Serhat Atayeter

数据集摘要

该数据集包含六个STEM学科的问答对,专为土耳其语推理任务设计。使用qwen3-32b模型生成,旨在用于微调RN_TR_R2(RefinedNeuro Turkish Reasoning v2)模型。

  • 学科: Matematik, Fizik, Kimya, Biyoloji, Geometri, Trigonometri, İstatistik
  • 年级: 6年级至12年级
  • 变体(后缀提示):
    1. 问题应详细且长,答案仅为数字。
    2. 问题应简短且精确,答案仅为数字。
    3. 问题应长但简单,答案仅为数字。
    4. 问题应简短且简单,答案仅为数字。

数据集统计

学科 示例数量
Matematik 2,500
Fizik 2,000
Kimya 1,500
Biyoloji 1,500
Geometri 2,000
Trigonometri 1,500
İstatistik 1,500

总示例数: 12,500

注意: 数据集以单个JSONL文件提供,无预定义分割(训练/验证/测试)。

数据字段

JSONL文件中的每一行包含以下字段:

  • class: 年级(如"6th grade", "12th grade")
  • branch: 学科(如"Matematik", "Fizik")
  • suffix: 变体提示标识或文本
  • prompt: 提供给qwen3-32b的原始生成提示
  • system_prompt: 系统级提示上下文(如有)
  • generated_question: 生成的问题文本
  • generated_answer: 数字答案
  • generated_answer_unit: 答案单位(如适用;否则为空)
  • generated_question_thinking_part: 模型的链式思考或推理笔记(如有)

生成过程

所有示例均使用qwen3-32b模型生成。提示模板和系统提示包含在数据集中。除基本JSONL格式化和去重外,未应用其他后处理。

预期用途

  • 微调土耳其语LLMs以进行STEM问答和推理
  • 作为RN_TR_R2模型(RefinedNeuro Turkish Reasoning v2)的蒸馏训练数据

RN_TR_R2模型通过进一步微调ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1并使用此数据集创建。

引用

bibtex @misc{farsak2025qwen3reasoning, title = {Qwen3 Reasoning Distill Q&A Dataset}, author = {Farsak, Mehmet Can and Atayeter, Serhat}, year = {2025}, publisher = {Refined Neuro}, howpublished = {url{https://huggingface.co/datasets/RefinedNeuro/Qwen3-Reasoning-Distill-Q-A-Dataset}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在STEM教育领域,高质量的本土化教学资源对非英语国家的知识传授至关重要。该数据集采用qwen3-32b大语言模型生成,通过精心设计的提示模板系统化构建了覆盖数学、物理、化学等七大学科的土耳其语问答对。生成过程中严格遵循年级分层(6-12年级)和问题类型规范(长/短题、难/易题),每个问题均要求数值型答案并保留模型推理过程,最终形成包含12,500条样本的未标注数据集。
特点
作为土耳其首个专注于STEM推理的生成式数据集,其显著特点体现在学科覆盖的系统性和问题设计的多样性。数据集不仅包含常规学科如数学、物理,还涵盖几何学、三角学等专业领域,每类问题均提供四种结构化变体。每条数据记录均完整保留生成提示、系统指令、问题思考链等元信息,为研究者分析模型推理过程提供透明窗口。数值型答案配合计量单位的标准化设计,特别适合训练机器理解定量推理任务。
使用方法
该数据集主要服务于土耳其语教育科技领域的研究与应用。通过HuggingFace标准接口加载后,可直接用于微调类似Turkish-Llama-8b-DPO-v0.1的本地化大语言模型。实践应用中建议结合RN_TR_R2模型的训练范式,重点关注系统提示与生成问题的映射关系。由于数据集未预设标准划分,使用者需根据具体场景按学科或年级进行分层抽样,同时可利用generated_question_thinking_part字段优化模型的思维链推理能力。
背景与挑战
背景概述
Qwen3-Reasoning-Distill-Q-A-Dataset是由Mehmet Can Farsak和Serhat Atayeter于2025年创建的土耳其语STEM领域问答数据集,旨在支持土耳其语语言模型在科学、技术、工程和数学领域的推理能力。该数据集覆盖数学、物理、化学、生物、几何、三角学和统计学等七个学科,涵盖6至12年级的教育内容。作为RefinedNeuro Turkish Reasoning v2模型的核心训练数据,该数据集通过qwen3-32b模型生成,并基于ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1模型进行微调,为土耳其语自然语言处理领域提供了重要的教育资源。
当前挑战
该数据集面临双重挑战:在领域问题层面,需要解决土耳其语STEM教育中复杂概念的多粒度表示问题,特别是如何准确捕捉不同年级学生对抽象科学概念的理解差异;在构建过程中,需克服生成式模型产生的语义一致性问题,确保自动生成的12,500个问答对在学科准确性和语言流畅性方面达到教育标准。此外,数值型答案的单元统一性维护以及思维链注释的完整性,都对数据质量控制提出了较高要求。
常用场景
经典使用场景
在STEM教育领域,Qwen3-Reasoning-Distill-Q-A-Dataset为土耳其语教学提供了丰富的资源。该数据集覆盖数学、物理、化学等多个学科,适用于6至12年级的教学场景。通过精心设计的问答对,教师可以利用这些数据生成课堂练习或考试题目,学生则能通过解答这些问题巩固知识点。数据集中的问题设计遵循不同难度和长度要求,能够满足多样化的教学需求。
解决学术问题
该数据集有效解决了土耳其语STEM教育资源匮乏的学术问题。通过大规模生成高质量的问答对,研究者可以深入探究语言模型在特定语言环境下的推理能力。同时,数据集为跨学科知识整合研究提供了实验基础,特别是在非英语语种的数理逻辑表达方面填补了空白。其标准化的问题格式也为自动化评估模型的性能提供了可靠基准。
衍生相关工作
围绕该数据集已经产生了一系列重要研究。最典型的是RN_TR_R2模型的开发,这是在土耳其-Llama模型基础上的重要改进。许多学者利用该数据集探索小语种模型的知识蒸馏技术,相关成果发表在机器学习和教育技术领域的顶级会议上。数据集还启发了针对其他非英语语种的类似资源建设项目。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作