pKLUE
收藏数据集概述
数据集名称: pKLUE 数据集目的: 用于Instruction Tuning的韩国语高质量数据集,旨在替代英语数据集的翻译版本。 数据集特点:
- 采用FLAN的方法论进行加工。
- 以Huggingface datasets的形式提供,便于应用。
数据集使用方法
- 通过
mixture.py中的get_mixture方法使用数据集。 - 参数包括
dataset_names(数据集名称列表)、max_examples(每个数据集的最大示例数,默认3000)和split(train或test)。
数据集示例
json {"instruction": "아래 문장을 비슷하게 다시 바꿔보세요.
숙소 위치는 찾기 쉽고 일반적인 한국의 반지하 숙소입니다. ", "input": "", "output": "숙박시설의 위치는 쉽게 찾을 수 있고 한국의 대표적인 반지하 숙박시설입니다."}
json {"instruction": "다음 글을 읽고 질문에 답하면? 올여름 장마가 17일 제주도에서 시작됐다. 서울 등 중부지방은 예년보다 사나흘 정도 늦은 이달 말께 장마가 시작될 전망이다.17일 기상청에 따르면 제주도 남쪽 먼바다에 있는 장마전선의 영향으로 이날 제주도 산간 및 내륙지역에 호우주의보가 내려지면서 곳곳에 100㎜에 육박하는 많은 비가 내렸다. 제주의 장마는 평년보다 2~3일, 지난해보다는 하루 일찍 시작됐다. 장마는 고온다습한 북태평양 기단과 한랭 습윤한 오호츠크해 기단이 만나 형성되는 장마전선에서 내리는 비를 뜻한다.장마전선은 18일 제주도 먼 남쪽 해상으로 내려갔다가 20일께 다시 북상해 전남 남해안까지 영향을 줄 것으로 보인다. 이에 따라 20~21일 남부지방에도 예년보다 사흘 정도 장마가 일찍 찾아올 전망이다. 그러나 장마전선을 밀어올리는 북태평양 고기압 세력이 약해 서울 등 중부지방은 평년보다 사나흘가량 늦은 이달 말부터 장마가 시작될 것이라는 게 기상청의 설명이다. 장마전선은 이후 한 달가량 한반도 중남부를 오르내리며 곳곳에 비를 뿌릴 전망이다. 최근 30년간 평균치에 따르면 중부지방의 장마 시작일은 6월24~25일이었으며 장마기간은 32일, 강수일수는 17.2일이었다.기상청은 올해 장마기간의 평균 강수량이 350~400㎜로 평년과 비슷하거나 적을 것으로 내다봤다. 브라질 월드컵 한국과 러시아의 경기가 열리는 18일 오전 서울은 대체로 구름이 많이 끼지만 비는 오지 않을 것으로 예상돼 거리 응원에는 지장이 없을 전망이다.
북태평양 기단과 오호츠크해 기단이 만나 국내에 머무르는 기간은? ", "input": "", "output": "한 달가량"}
json {"instruction": "다음 문장과 수반 관계의 문장을 써 줘.
힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "input": "", "output": "힛걸 진심 최고로 멋지다."}
json {"instruction": "다음은 뉴스 기사의 제목이다. 이 기사의 유형을 분류한다면 다음 중 무엇인가? 제목: 유튜브 내달 2일까지 크리에이터 지원 공간 운영 선택지:
- IT과학
- 경제
- 사회
- 생활문화
- 세계
- 스포츠
- 정치", "input": "", "output": "생활문화"}
json {"instruction": "하늘에 별이 보였다. 위 사건의 원인은? 상황: 하늘에 별이 보였다. 선택지:
- 환한 낮이 되었다.
- 하늘이 깜깜해졌다.", "input": "", "output": "하늘이 깜깜해졌다."}




