five

SFT-Reasoning-Ko-Translated

收藏
Hugging Face2025-12-08 更新2025-12-09 收录
下载链接:
https://huggingface.co/datasets/werty1248/SFT-Reasoning-Ko-Translated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:'Natural_Reasoning_gpt_oss_120b_s1'和'YiSang_HighQuality'。每个配置包含索引、指令、韩语和原始语言的推理、答案、来源、翻译器以及各种对数概率等特征。数据集用于自然推理任务,涉及韩语和英语之间的推理文本翻译和处理。数据处理包括使用特定模型进行翻译、句子级匹配以及基于特定标准进行过滤以确保质量。数据集采用Apache-2.0许可证,支持英语和韩语。

This dataset contains two configurations: 'Natural_Reasoning_gpt_oss_120b_s1' and 'YiSang_HighQuality'. Each configuration includes features such as index, instruction, reasoning and answer in Korean and original language, source, translator, and various log probabilities. This dataset is designed for natural reasoning tasks, involving translation and processing of reasoning texts between Korean and English. Data processing includes translation using specific models, sentence-level matching, and filtering based on specific criteria to ensure quality. The dataset is licensed under Apache-2.0 and supports both English and Korean.
创建时间:
2025-11-24
原始信息汇总

数据集概述

基本描述

  • 数据集名称: SFT-Reasoning-Ko-Translated
  • 数据集地址: https://huggingface.co/datasets/werty1248/SFT-Reasoning-Ko-Translated
  • 许可证: apache-2.0
  • 语言: 英语 (en)、韩语 (ko)

数据集配置与结构

本数据集包含两个独立的配置。

配置一:Natural_Reasoning_gpt_oss_120b_s1

  • 数据来源: 英语查询 -> 英语推理 + 英语答案数据,源自 Jackrong/Natural-Reasoning-gpt-oss-120B-S1
  • 特征字段:
    • index: 索引 (字符串)
    • instruction: 指令 (字符串)
    • reasoning_ko: 韩语翻译后的推理文本 (字符串)
    • reasoning_original: 原始推理文本 (字符串)
    • answer: 答案 (字符串)
    • source: 数据来源 (字符串)
    • translator: 翻译器信息 (字符串)
    • nonthink_avg_logprob: 无推理时的平均对数概率 (浮点数)
    • think_original_avg_logprob: 使用原始推理时的平均对数概率 (浮点数)
    • think_ko_avg_logprob: 使用韩语推理时的平均对数概率 (浮点数)
  • 数据划分:
    • train: 训练集,包含 8,716 个样本,大小约 162.77 MB。

配置二:YiSang_HighQuality

  • 数据来源: 韩语查询 -> 英语推理 + 韩语答案数据,源自 KOREAson/YiSang-HighQuality
  • 特征字段: 与配置一完全相同。
  • 数据划分:
    • train: 训练集,包含 49,564 个样本,大小约 505.30 MB。

数据处理流程

  1. 推理文本翻译:
    • 使用 yanolja/YanoljaNEXT-Rosetta-4B-2511 模型进行翻译。
    • 将原始查询作为上下文以提高翻译一致性。
    • 仅翻译长度小于 8192 个标记的推理文本。
  2. 句子级对齐与过滤:
    • 使用 nltk.sent_tokenize 将原始和翻译后的推理文本分割成句子。
    • 使用 BAAI/bge-m3 模型进行句子嵌入和匹配。
    • 排除连续多个句子缺失的样本。
    • 排除原始文本与翻译文本平均相似度低于 0.7 的样本。
  3. 有用性过滤:
    • 基于 Qwen/Qwen3-4B 模型进行过滤,仅保留有助于得出答案的翻译推理。
    • 过滤条件为:π(a|q) < π(a|q, t) 且 π(a|q, t) < π(a|q, t_ko)。
    • 此步骤过滤掉了约 50% 的 YiSang-HighQuality 数据和约 70% 的 Natural-Reasoning 数据。

备注信息

  • 初步测试表明,在 Gemma-3-4B-it 模型上,学习英语推理比学习韩语推理能带来更大的性能提升。
  • 部分学习“英语查询->韩语推理->英语答案”形式的数据(Natural-Reasoning)时,在英语基准 MMLU-Pro 上观察到分数有轻微提升。
  • 创建者正在探索对韩语预训练模型(如 HyperClova, Kanana)的影响,并尝试使用韩语推理模型(HyperCLOVAX-SEED-Think-14B)重新生成推理文本。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量推理数据的构建对提升模型逻辑能力至关重要。SFT-Reasoning-Ko-Translated数据集通过系统化流程整合了来自KOREAson/YiSang-HighQuality与Jackrong/Natural-Reasoning-gpt-oss-120B-S1的原始语料,涵盖韩语与英语的指令-推理-答案三元组。其核心构建步骤包括利用YanoljaNEXT-Rosetta-4B-2511模型进行推理文本的韩语翻译,并通过原文上下文保障翻译一致性;随后采用BAAI/bge-m3嵌入模型进行句子级对齐与相似度筛选,剔除平均相似度低于0.7的样本;最终基于Qwen/Qwen3-4B模型执行概率过滤,确保翻译后推理能有效提升原始答案的生成概率,从而保留高质量跨语言推理数据。
特点
该数据集在跨语言推理任务中展现出鲜明的结构性特征。其包含两个独立配置,分别对应不同来源的语料:Natural_Reasoning_gpt_oss_120b_s1提供8,716条样本,而YiSang_HighQuality则包含49,564条样本,每条样本均涵盖指令、原始推理、韩语翻译推理、答案及来源等丰富元数据。尤为突出的是,数据集引入了非推理与推理场景下的平均对数概率字段,为研究推理过程对答案生成的贡献提供了量化依据。此外,严格的翻译对齐与概率过滤机制保障了韩语推理文本在语义上与原文高度一致,同时具备功能性提升,使得数据集兼具语言多样性与逻辑可靠性。
使用方法
针对韩语或双语推理模型的训练与评估,该数据集提供了清晰的应用路径。研究者可直接通过HuggingFace数据集库加载两个配置,分别用于不同数据分布下的监督微调。在模型训练过程中,可结合instruction与reasoning_ko字段构建序列到序列的学习目标,强化模型遵循韩语推理链生成答案的能力。同时,利用think_ko_avg_logprob等概率字段可进行样本质量分析或课程学习调度。对于评估阶段,数据集支持跨语言泛化实验,例如对比模型在英语指令下结合韩语推理的表现,或探究翻译推理对数学与常识任务的影响,为多语言推理能力的研究提供实证基础。
背景与挑战
背景概述
在自然语言处理领域,增强大型语言模型的推理能力已成为核心研究方向。SFT-Reasoning-Ko-Translated数据集应运而生,旨在通过提供高质量的韩语翻译推理链,专门优化模型在韩语语境下的复杂推理性能。该数据集由社区研究者整合构建,主要基于两个知名源数据集:KOREAson/YiSang-HighQuality与Jackrong/Natural-Reasoning-gpt-oss-120B-S1。其核心研究问题聚焦于解决跨语言知识迁移的难题,即如何将英语语境中丰富的推理数据有效转化为支持韩语模型训练的优质资源。该数据集的创建显著促进了韩语大语言模型在逻辑推理、数学解题及常识问答等任务上的能力发展,为多语言人工智能研究提供了关键的数据支撑。
当前挑战
该数据集致力于解决的核心领域挑战是提升模型在韩语环境下的复杂推理能力,其构建过程面临多重具体困难。首要挑战在于跨语言语义对齐,即确保从英语到韩语的推理链翻译不仅语法正确,更能精准保留原逻辑结构与细微语义。构建过程中,研究者需克服机器翻译模型在长文本、专业术语及上下文连贯性上的局限,为此采用了结合上下文提示与句子级嵌入匹配的精细后处理流程。另一关键挑战是数据质量过滤,需设计严谨的评估指标,利用似然概率比较等方法,筛选出真正能提升模型预测准确性的翻译样本,这一过程导致了大量数据被剔除。此外,初步实验表明,直接使用翻译后的韩语推理链进行训练,可能在特定任务(如数学推理)中引发模型输出重复或性能下降等新问题,这揭示了跨语言推理数据适配性的深层挑战。
常用场景
经典使用场景
在自然语言处理领域,多语言推理能力的构建是提升模型泛化性能的关键。SFT-Reasoning-Ko-Translated数据集通过提供高质量的韩语翻译推理链,为研究者训练和评估韩语推理模型提供了核心资源。该数据集典型应用于指令跟随与思维链微调场景,模型通过学习指令、韩语推理过程及对应答案的对应关系,能够模拟人类逐步推理的认知模式,从而增强在复杂问题解决中的逻辑连贯性与准确性。
解决学术问题
该数据集有效应对了跨语言知识迁移中的语义对齐与推理保真度挑战。通过严谨的翻译质量过滤与概率对齐验证机制,它确保了韩语推理链在逻辑上与原英语推理的高度一致性,解决了低资源语言推理数据稀缺与质量参差不齐的学术难题。其意义在于为韩语自然语言推理研究建立了可靠的基准,推动了多语言大模型在非英语语境下的推理能力评测与优化,缩小了语言间的技术鸿沟。
衍生相关工作
围绕该数据集,研究社区已衍生出多项探索性工作。一方面,研究者利用其比较不同多语言模型(如HyperClova、Kanana)在韩语推理任务上的性能差异,优化模型架构与训练策略。另一方面,基于数据集中的概率对齐指标,后续工作进一步开发了更精细的推理质量评估框架与数据清洗方法。这些经典研究深化了对跨语言推理机制的理解,并为构建更鲁棒的多语言思维链模型提供了方法论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作