pKLUE

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/superheavytail/pklue

下载链接

链接失效反馈

官方服务：

资源简介：

该研究旨在使用高质量的韩语数据集进行指令调整，而不是翻译英语指令数据集。它采用了FLAN（Wei等人，微调的语言模型是零射击学习者）提出的方法论，并将其转换为Huggingface数据集格式，以便更容易地应用于FLAN仓库提供的API。

This research aims to utilize a high-quality Korean dataset for instruction tuning, rather than translating English instruction datasets. It adopts the methodology proposed by FLAN (Wei et al., Fine-tuned Language Models are Zero-Shot Learners) and converts it into the Huggingface dataset format to facilitate easier application through the APIs provided by the FLAN repository.

创建时间：

2023-11-16

原始信息汇总

数据集概述

数据集名称: pKLUE 数据集目的: 用于Instruction Tuning的韩国语高质量数据集，旨在替代英语数据集的翻译版本。 数据集特点:

采用FLAN的方法论进行加工。
以Huggingface datasets的形式提供，便于应用。

数据集使用方法

通过mixture.py中的get_mixture方法使用数据集。
参数包括dataset_names（数据集名称列表）、max_examples（每个数据集的最大示例数，默认3000）和split（train或test）。

数据集示例

json {"instruction": "아래 문장을 비슷하게 다시 바꿔보세요.

숙소 위치는 찾기 쉽고 일반적인 한국의 반지하 숙소입니다. ", "input": "", "output": "숙박시설의 위치는 쉽게 찾을 수 있고 한국의 대표적인 반지하 숙박시설입니다."}

json {"instruction": "다음 글을 읽고 질문에 답하면? 올여름 장마가 17일 제주도에서 시작됐다. 서울 등 중부지방은 예년보다 사나흘 정도 늦은 이달 말께 장마가 시작될 전망이다.17일 기상청에 따르면 제주도 남쪽 먼바다에 있는 장마전선의 영향으로 이날 제주도 산간 및 내륙지역에 호우주의보가 내려지면서 곳곳에 100㎜에 육박하는 많은 비가 내렸다. 제주의 장마는 평년보다 2~3일, 지난해보다는 하루 일찍 시작됐다. 장마는 고온다습한 북태평양 기단과 한랭 습윤한 오호츠크해 기단이 만나 형성되는 장마전선에서 내리는 비를 뜻한다.장마전선은 18일 제주도 먼 남쪽 해상으로 내려갔다가 20일께 다시 북상해 전남 남해안까지 영향을 줄 것으로 보인다. 이에 따라 20~21일 남부지방에도 예년보다 사흘 정도 장마가 일찍 찾아올 전망이다. 그러나 장마전선을 밀어올리는 북태평양 고기압 세력이 약해 서울 등 중부지방은 평년보다 사나흘가량 늦은 이달 말부터 장마가 시작될 것이라는 게 기상청의 설명이다. 장마전선은 이후 한 달가량 한반도 중남부를 오르내리며 곳곳에 비를 뿌릴 전망이다. 최근 30년간 평균치에 따르면 중부지방의 장마 시작일은 6월24~25일이었으며 장마기간은 32일, 강수일수는 17.2일이었다.기상청은 올해 장마기간의 평균 강수량이 350~400㎜로 평년과 비슷하거나 적을 것으로 내다봤다. 브라질 월드컵 한국과 러시아의 경기가 열리는 18일 오전 서울은 대체로 구름이 많이 끼지만 비는 오지 않을 것으로 예상돼 거리 응원에는 지장이 없을 전망이다.

북태평양 기단과 오호츠크해 기단이 만나 국내에 머무르는 기간은? ", "input": "", "output": "한 달가량"}

json {"instruction": "다음 문장과 수반 관계의 문장을 써 줘.

힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "input": "", "output": "힛걸 진심 최고로 멋지다."}

json {"instruction": "다음은 뉴스 기사의 제목이다. 이 기사의 유형을 분류한다면 다음 중 무엇인가? 제목: 유튜브 내달 2일까지 크리에이터 지원 공간 운영 선택지:

IT과학
경제
사회
생활문화
세계
스포츠
정치", "input": "", "output": "생활문화"}

json {"instruction": "하늘에 별이 보였다. 위 사건의 원인은? 상황: 하늘에 별이 보였다. 선택지:

환한 낮이 되었다.
하늘이 깜깜해졌다.", "input": "", "output": "하늘이 깜깜해졌다."}

搜集汇总

数据集介绍

构建方式

pKLUE数据集的构建基于对高质量韩语数据的加工，旨在为Instruction Tuning（IST）提供支持。与传统的英语Instruction数据集翻译不同，pKLUE直接利用韩语原生数据，通过借鉴FLAN（Wei et al., 2021）的方法论，将通用韩语数据转化为适用于IST的形式。该数据集以Huggingface datasets格式呈现，便于用户直接调用和应用。

特点

pKLUE数据集的核心特点在于其专注于韩语Instruction Tuning，避免了传统翻译方法的局限性。数据集内容涵盖多种韩语任务，如句子重写、问题回答、文本分类等，确保了多样性和实用性。此外，数据集以Huggingface格式提供，使得用户能够轻松集成到现有工作流中，提升了数据集的易用性和可扩展性。

使用方法

使用pKLUE数据集时，用户可以通过调用`mixture.py`中的`get_mixture`方法来获取所需的数据。该方法允许用户指定数据集名称列表、每个数据集的最大样本数以及数据集的分割（训练集或测试集）。具体操作中，用户需在`dataset_names`参数中传入所需数据集的名称，并可选择设置`max_examples`和`split`参数以满足特定需求。

背景与挑战

背景概述

pKLUE数据集是由韩国研究人员于2023年发起的一项研究项目，旨在为指令调优（Instruction Tuning）提供高质量的韩语数据集。与传统的通过翻译英语数据集来实现指令调优不同，pKLUE直接基于韩语数据进行处理，借鉴了FLAN（Wei et al., 2021）的方法论，并将其数据格式化以便于Huggingface datasets的使用。该数据集的创建不仅填补了韩语在指令调优领域的空白，还为自然语言处理（NLP）领域的研究提供了新的资源，尤其是在多语言模型训练和跨语言任务中具有重要意义。

当前挑战

pKLUE数据集在构建过程中面临的主要挑战包括：首先，如何从现有的韩语数据中筛选并加工出适合指令调优的高质量数据，这一过程需要对数据进行精细的清洗和标注。其次，由于韩语与英语在语法结构和表达习惯上的差异，如何确保指令调优模型在韩语数据上的表现与在英语数据上相当，是一个技术难题。此外，数据集的多样性和覆盖范围也是一个挑战，确保数据能够涵盖不同领域的任务和场景，以提高模型的泛化能力。

常用场景

经典使用场景

pKLUE数据集在自然语言处理领域中，主要用于指令调优（Instruction Tuning）任务。通过提供高质量的韩语数据，该数据集使得模型能够更好地理解和执行韩语指令，从而提升其在多任务学习中的表现。其经典使用场景包括但不限于文本生成、问答系统、语义理解等，尤其是在需要处理韩语语言特性的应用中，pKLUE展现了其独特的优势。

实际应用

在实际应用中，pKLUE数据集被广泛应用于韩语自然语言处理的各种场景，如智能客服、自动翻译、内容生成等。通过使用pKLUE进行指令调优，系统能够更准确地理解用户指令，提供更精准的服务。此外，该数据集还被用于开发韩语教育辅助工具，帮助学习者更好地掌握韩语语法和表达方式，从而在教育领域也展现了其应用价值。

衍生相关工作

pKLUE数据集的发布激发了大量相关研究工作，特别是在韩语自然语言处理和多任务学习领域。许多研究者基于pKLUE开发了新的模型和算法，以提升韩语处理能力。例如，有研究利用pKLUE进行跨语言迁移学习，探索如何在不同语言间共享知识。此外，pKLUE还促进了韩语数据集的标准化和评估框架的建立，为未来的研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集