hallyu-cot
收藏hallyu-cot 数据集概述
数据集基本信息
- 数据集名称: hallyu-cot
- 创建者: one0502
- 语言: 韩语 (ko)、英语 (en)
- 许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
- 标签: chain-of-thought, instruction-following, question-answering, korean, educational
数据集描述
hallyu-cot 是一个指令遵循和问答示例的集合,旨在增强大语言模型(LLMs)的推理能力,特别是在韩语和英语中。它利用思维链(Chain-of-Thought,CoT)方法,在指令和答案之外提供逐步推理过程。
该数据集包含大约1258个样本(且数量在增长),涵盖多样化的教育和知识型问题。数据来源于 FineWeb-Edu(一个高质量教育网络数据存储库)。每个样本都经过 Gemini AI 精心重构,旨在为 LLMs 提供清晰、结构化的学习体验。数据集的目标是提升模型理解复杂指令、分析潜在问题、执行逐步推理以及生成准确且信息丰富响应的能力。
该数据集旨在成为以下领域研究人员和开发者的宝贵资源:
- 提升 LLM 推理能力。
- 针对指令遵循进行 LLM 微调。
- 开发韩语 LLM。
- 探索 CoT 在不同领域的应用。
数据字段
每个样本包含以下四个字段:
- instruction: 向 LLM 提出的指令或问题。这是模型应响应的输入。(韩语 + 英语)
- analysis: 对指令的简要分析,概述成功响应的关键方面和要求。(韩语)
- thought: 思维链(CoT)过程,提供回答指令所需推理过程的逐步分解。(韩语)
- response: 对指令的最终答案或响应,基于
thought字段概述的推理过程生成。(韩语)
数据收集
数据来源于 FineWeb-Edu。使用 Gemini AI 将源数据处理并重构为 instruction、analysis、thought 和 response 格式。此过程确保每个样本结构良好,适用于使用思维链方法训练 LLMs。随着更多样本被处理和添加,数据收集持续增长。
使用方式
可以使用 Hugging Face datasets 库加载和使用该数据集:
python
from datasets import load_dataset
dataset = load_dataset("one0502/hallyu-cot")
数据示例
示例 1:
{ "instruction": "2010년을 최초의 생물 다양성의 해로 지정한 것이 실제로 의미가 있었는지 평가하고, 당시 목표 달성 여부와 한계를 분석하시오.", "analysis": "이 문제는 2010년 생물 다양성의 해 지정의 실효성을 묻고 있습니다. IUCN 종 보존 위원회 의장의 의견을 바탕으로, 당시 목표와 실제 성과를 비교 분석하여 그 의미를 판단해야 합니다.", "thought": "1단계: 2010년 생물 다양성의 해 지정 당시의 목표를 명확히 파악한다. (생물 다양성 손실 속도 감소) 2단계: 당시 각국 정부의 약속과 실제 노력의 정도를 평가한다. 3단계: IUCN 종 보존 위원회 의장의 비판적인 시각 (홍보용, 실질적인 보존 노력 부족)을 고려한다. 4단계: 목표 달성 여부를 판단하고, 만약 달성하지 못했다면 그 이유와 한계를", "response": "2010년 생물 다양성의 해 지정은 세계 각국이 생물 다양성 보존의 필요성을 인식하고 공동 노력을 약속한 첫 번째 사례라는 점에서 의의가 있습니다. 하지만 IUCN 종 보존 위원회 의장의 지적처럼, 목표가 소극적이었고 (멸종 방지, 핵심 서식지 보존이 아닌 손실 속도 감소), 실제적인 보존 노력과 연계가 부족하여 실질적인 성과를 거두었다고 보기 어렵습니" }
示例 2:
{ "instruction": "2010년이 최초의 세계 생물 다양성의 해로 지정된 것이 실제로 어떤 의미가 있었는지 평가하고, IUCN 종 보전 위원회 의장의 의견을 바탕으로 그 효과와 한계를 분석하시오.", "analysis": "이 문제는 2010년 세계 생물 다양성의 해 지정의 실질적인 효과를 묻고 있다. IUCN 종 보전 위원회 의장의 의견을 통해 당시 국제적인 노력의 목표, 성과, 그리고 한계점을 파악해야 한다.", "thought": "1단계: 2010년의 목표를 명확히 파악한다 (생물 다양성 손실 속도 감소). 2단계: 당시 목표가 충분히 야심찼는지 평가한다 (단순히 속도 감소에 초점). 3단계: IUCN 의장의 비판적 시각 (홍보용 쇼, 실질적인 보전 문제 참여 부족)을 분석한다. 4단계: 정부들의 약속 이행 여부와 실제 성과 분석 결과에 대한 언급을 파악한다.", "response": "2010년 세계 생물 다양성의 해 지정은 생물 다양성 보전에 대한 국제적 관심을 환기시키는 계기가 되었지만, IUCN 종 보전 위원회 의장의 지적처럼 실질적인 보전 노력보다는 홍보에 치중했다는 비판이 있다. 당시 목표는 생물 다양성 손실을 완전히 막는 것이 아니라 손실 속도를 늦추는 데 그쳤으며, 정부들의 약속 이행 및 실제 성과 분석 결과는 미흡했을 " }
许可证信息
本数据集采用知识共享署名 4.0 国际许可协议(CC-BY-4.0)进行许可。您可以自由使用、共享和改编该数据集用于任何目的,前提是给予作者(one0502)适当的署名。许可证链接:https://creativecommons.org/licenses/by/4.0/




