Cartinoe5930/KoRAE_filtered_12k

Name: Cartinoe5930/KoRAE_filtered_12k
Creator: Cartinoe5930
Published: 2023-11-09 13:40:09
License: 暂无描述

Hugging Face2023-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cartinoe5930/KoRAE_filtered_12k

下载链接

链接失效反馈

官方服务：

资源简介：

KoRAE数据集是一个高质量的韩语数据集，用于微调韩语大语言模型。该数据集通过收集多个韩语数据集，并使用ChatGPT进行质量评分，最终过滤出评分在8.5分以上的高质量数据。数据集包含12k条数据，涵盖了多个来源的韩语数据，如OpenOrca-ko、KOpen-Platypus、KoCoT_2000和databricks-dolly-15k-ko等。

提供机构：

Cartinoe5930

原始信息汇总

KoRAE Dataset

数据集信息

特征

source: 字符串类型
prompt: 字符串类型
instruction: 字符串类型
input: 字符串类型
output: 字符串类型
review: 字符串类型
score: 浮点数类型

数据分割

train: 包含35,802,556字节，12,473个样本

数据集大小

下载大小: 18,374,150字节
数据集大小: 35,802,556字节

数据处理流程

1. 韩语数据集混合

OpenOrca-ko: 21,600条数据
KOpen-Platypus: 24,900条数据
KoCoT_2000: 2,100条数据
databricks-dolly-15k-ko: 15,000条数据
总计: 63,700条数据

2. 评分

使用ChatGPT(gpt-3.5-turbo)对数据集质量进行评分，评分方法参考AlpaGasus。

3. 处理与过滤

对评分后的数据集进行后处理，包括错误分数提取修正和不正确格式数据排除。
最终过滤出12,000条高质量数据用于微调KoRAE。

搜集汇总

数据集介绍

构建方式

在构建KoRAE_filtered_12k数据集的过程中，研究者首先从HuggingFace Hub整合了多个高质量的韩语数据集，包括OpenOrca-ko、KOpen-Platypus、KoCoT_2000及databricks-dolly-15k-ko，初步形成了约64K条数据的混合集。随后，借鉴AlpaGasus的研究方法，利用gpt-3.5-turbo模型对每条数据进行质量评分，评分过程采用韩语提示以确保语言一致性。最后，通过后处理步骤校正评分提取错误并排除格式不规范的数据，仅筛选出评分高于8.5的高质量条目，从而将原始数据集精炼至12K条，形成了最终用于微调的优化版本。

特点

KoRAE_filtered_12k数据集的核心特点在于其经过严格质量过滤的韩语指令遵循数据。该数据集包含source、prompt、instruction、input、output、review和score等多个结构化字段，支持复杂的自然语言处理任务。数据源自多个权威韩语资源，经过GPT-3.5-Turbo模型的自动化评分与人工后处理，确保了内容的准确性与一致性。评分分布显示，数据整体质量较高，多数条目集中在8分以上，而筛选后的子集进一步提升了数据的纯净度，为韩语大语言模型的微调提供了可靠的高质量语料基础。

使用方法

该数据集主要用于韩语大语言模型的指令微调与性能优化。用户可通过HuggingFace平台直接加载数据集，利用其结构化的指令-输出对进行模型训练。典型应用场景包括构建或改进韩语对话系统、文本生成模型及多任务学习框架。数据集中提供的评分字段可用于进一步的数据筛选或加权训练，以增强模型对高质量样本的敏感性。此外，研究者可参考原始KoRAE数据集及评分分布，结合自身需求调整过滤阈值，实现定制化的训练流程。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的广泛应用，针对特定语言的指令微调数据集成为提升模型性能的关键资源。KoRAE_filtered_12k数据集由Cartinoe5930团队于2023年构建，其核心研究问题在于解决韩语指令遵循任务中高质量训练数据稀缺的困境。该数据集整合了OpenOrca-ko、KOpen-Platypus、KoCoT_2000及databricks-dolly-15k-ko等多个韩语数据集，通过借鉴AlpaGasus研究中的质量过滤方法，利用GPT-3.5-turbo对数据质量进行评分与筛选，最终从原始64K数据中萃取出12K高质量样本。这一工作不仅丰富了韩语自然语言处理资源库，也为构建更精准的韩语大型语言模型提供了重要数据基础。

当前挑战

在构建KoRAE_filtered_12k数据集过程中，研究团队面临双重挑战。领域问题方面，韩语指令遵循任务需应对语言特有的语法结构、敬语体系及文化语境差异，确保模型能够准确理解并生成符合语言习惯的响应。构建过程挑战则集中于数据质量评估的客观性与一致性：尽管采用自动化评分机制，但评分提示词的语言选择（韩语与英语）可能引入评估偏差；同时，原始数据中存在的格式错误与评分异常需通过复杂后处理流程进行校正，以维持数据集的纯净度与可靠性。这些挑战凸显了多语言数据集中质量控制的复杂性与必要性。

常用场景

经典使用场景

在自然语言处理领域，高质量指令微调数据集的构建是提升大语言模型性能的关键环节。KoRAE_filtered_12k数据集通过整合多个韩语开源数据集，并采用基于大语言模型的自动化质量评分与过滤机制，为研究人员提供了一个经过精炼的韩语指令遵循数据集。其经典使用场景集中于韩语大语言模型的指令微调阶段，旨在优化模型对复杂韩语指令的理解与生成能力，从而在问答、摘要、翻译等任务上实现更精准、更符合语言习惯的输出。

解决学术问题

该数据集直接回应了非英语语言大语言模型研究中数据质量参差不齐的核心挑战。它系统性地解决了韩语指令数据稀缺、质量评估标准缺失以及低质量数据干扰模型训练效果等学术问题。通过引入AlpaGasus的过滤理念，该工作证明了数据质量而非单纯数量对模型性能的决定性影响，为多语言大语言模型的高效训练提供了可复现的方法论，推动了数据为中心的人工智能研究范式在低资源语言场景下的深入应用。

衍生相关工作

该数据集的构建方法衍生并衔接了多项经典研究工作。其核心过滤策略直接借鉴了AlpaGasus关于利用大语言模型进行数据质量评估的前沿思想。同时，它整合并精炼了如OpenOrca-ko、KOpen-Platypus等已有的韩语指令数据集，可视作对这些社区资源的深度优化与价值提升。相关实践也为后续如KULLM等项目在构建韩语大模型时提供了高质量数据选材与处理的重要参考，形成了从数据收集、评估到模型训练的完整技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集