Kyoto-Corpus

github2025-09-01 更新2025-09-02 收录

下载链接：

https://github.com/Nikityyy/Kyoto-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Kyoto-Corpus是一个高质量、小规模的数据集，专为小型语言模型（SLMs）的指令调优而设计。该语料库遵循质量优于数量的理念，通过精心筛选、过滤和统一多个优质开源对话数据集构建而成，包含通用聊天、指令遵循、数学和知识问答等多种类型的数据，采用统一的聊天格式并经过严格的质量控制和去重处理。

Kyoto-Corpus is a high-quality, small-scale dataset specifically designed for instruction tuning of small language models (SLMs). Adhering to the principle of quality over quantity, it is constructed by carefully screening, filtering, and standardizing multiple high-quality open-source conversational datasets. It contains diverse types of data including general chat, instruction following, mathematical problem-solving, and knowledge-based question answering, adopts a unified chat format, and has undergone rigorous quality control and deduplication processing.

创建时间：

2025-09-01

原始信息汇总

Kyoto-Corpus 数据集概述

数据集简介

Kyoto-Corpus 是一个高质量、小规模的数据集，专门为小型语言模型（SLMs）的指令调优而设计。该数据集遵循"质量优于数量"的理念，通过精心筛选和统一多个优质公开指令和聊天数据集构建而成。

主要特性

多样化和高质量来源：汇集了涵盖通用聊天、指令遵循、数学和知识问答等多个领域的知名数据集
统一聊天格式：所有数据均使用特殊标记（<|startoftext|>, <|user|>, <|assistant|>, <|endoftext|>）标准化为一致的聊天格式
严格筛选和去重：应用严格的质量控制，包括过滤过长对话（最多512个标记）、确保正确的对话轮次结构以及跨源数据集去重
针对小型模型优化：标记限制和精心策划的特性使其特别适合训练和微调小型语言模型
多种格式支持：提供Parquet和纯文本两种格式
透明和可复现：包含从源数据集生成整个语料库的脚本

数据集构成

Kyoto-Corpus 由以下开源数据集混合而成：

源数据集	类型	Hugging Face 链接
ultrachat_200k	通用目的	https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k
smoltalk2	通用目的	https://huggingface.co/datasets/HuggingFaceTB/smoltalk2
smol-smoltalk	通用目的	https://huggingface.co/datasets/HuggingFaceTB/smol-smoltalk
WildChat-1M	通用目的	https://huggingface.co/datasets/allenai/WildChat-1M
WizardLM_evol_instruct_V2	通用目的	https://huggingface.co/datasets/WizardLMTeam/WizardLM_evol_instruct_V2_196k
ifeval-like-data	指令	https://huggingface.co/datasets/argilla/ifeval-like-data
tulu-3-sft-personas	指令	https://huggingface.co/datasets/allenai/tulu-3-sft-personas-instruction-following
mmlu	知识	https://huggingface.co/datasets/cais/mmlu
gsm8k	数学	https://huggingface.co/datasets/openai/gsm8k
math_qa	数学	https://huggingface.co/datasets/allenai/math_qa
MetaMathQA	数学	https://huggingface.co/datasets/meta-math/MetaMathQA

数据格式

Parquet格式（结构化）

包含messages列（存储字典列表）和hf_dataset列（指示原始来源）： json { "messages": [ {"role": "user", "content": "What is the capital of Japan?"}, {"role": "assistant", "content": "The capital of Japan is Tokyo."} ], "hf_dataset": "Username/Repository" }

纯文本格式

train.txt文件包含每个对话的完整格式化字符串：

使用方法

可通过Hugging Face Hub使用datasets库加载数据集： python from datasets import load_dataset ds_parquet = load_dataset("Nikityyy/Kyoto-Corpus", split="train") print(ds_parquet[0])

许可证

本项目采用MIT许可证。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量数据集对于小语言模型的指令调优至关重要。Kyoto-Corpus采用精心策划的构建方法，通过整合多个权威开源数据集，包括通用对话、数学推理和知识问答等类型。构建过程采用流式数据处理与并行计算技术，首先从Hugging Face Hub获取原始数据，随后进行格式统一转换，将不同结构的对话标准化为统一的聊天格式。通过严格的长度过滤机制，剔除超过512个标记的对话，并应用高效的重复数据删除算法，确保数据集的纯净性与多样性。

使用方法

研究人员可以便捷地通过Hugging Face的datasets库加载该数据集，实现即插即用的模型训练。数据集支持直接加载Parquet格式的结构化数据，其中包含完整的对话消息列表和原始数据来源信息。对于需要直接进行文本处理的场景，数据集提供预先格式化的纯文本版本，每条对话均已添加标准化的特殊标记符。用户可以根据模型训练的具体需求，选择合适的数据格式进行加载和处理，无需额外的数据预处理步骤，大大简化了模型训练的准备工作。

背景与挑战

背景概述

Kyoto-Corpus诞生于小型语言模型（SLMs）指令调优研究的关键发展阶段，由Nikityyy团队精心构建。该数据集秉承“质量优于数量”的核心理念，并非全新采集的数据，而是通过对多个高质量开源指令与对话数据集进行深度整合与优化形成。其设计目标直指提升SLMs在有限计算资源下的指令遵循与多轮对话能力，覆盖通用对话、数学推理及知识问答等多维度任务场景，为Lille-130M-Instruct等轻量级模型的训练提供了重要支撑。

当前挑战

在领域问题层面，Kyoto-Corpus致力于解决小型语言模型指令调优中数据质量与多样性平衡的难题，尤其需克服传统大规模语料中噪声高、冗余度大对模型泛化能力的制约。构建过程中的挑战集中体现于多源异构数据的格式统一与语义一致性维护，包括对话结构的标准化转换、长文本的智能截断策略设计，以及跨数据集的高效去重机制实现。此外，还需确保各领域数据比例的科学配置，以维持模型在不同任务上的均衡表现。

常用场景

经典使用场景

在小型语言模型指令微调领域，Kyoto-Corpus通过精心整合多个高质量开源数据集，构建了统一的对话格式训练语料。该数据集特别适用于参数规模在百亿级别以下的模型训练，其标准化格式与严格的长度控制使得模型能够高效学习指令理解与响应生成能力，尤其适合计算资源受限的研究环境。

解决学术问题

该数据集有效解决了小规模模型训练中数据质量参差不齐、格式不统一导致的泛化能力不足问题。通过跨数据集去重和质量过滤机制，显著提升了指令跟随任务的准确性和一致性，为资源受限条件下的模型性能优化提供了可靠的数据基础，推动了高效轻量级语言模型的发展。

实际应用

在实际部署中，Kyoto-Corpus支持构建轻量级对话系统、教育领域的智能辅导工具以及资源受限设备的本地化语言处理应用。其标准化格式与多领域覆盖特性使得训练后的模型能够胜任通用问答、数学推理和知识咨询等场景，为边缘计算和移动端AI应用提供了可行性方案。

数据集最近研究