kaist-ai/CoT-Collection

Hugging Face2023-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kaist-ai/CoT-Collection

下载链接

链接失效反馈

资源简介：

CoT Collection数据集旨在通过微调语言模型来生成Chain-of-Thoughts（CoT），从而提升零样本和少样本学习的能力。该数据集包含1060个任务，覆盖了多种自然语言处理任务类别，如自然语言推理、问答、科学、算术等。数据集的结构包括输入、目标答案、推理链和任务类别。数据集的规模为1837928条训练数据。

提供机构：

kaist-ai

原始信息汇总

数据集概述

数据集描述

名称: CoT Collection
目的: 旨在诱导语言模型具备Chain-of-Thought (CoT)能力。
数据量: 1.84百万条CoT数据，覆盖1060个任务。
语言: 英语
版本: 提供多语言版本，链接为Multilingual-CoT-Collection。

支持的任务和分类

任务数量: 1060个任务，选自Flan Collection。
分类:
- 自然语言推理
- 抽取式问答
- 闭书问答
- 科学
- 毒性分类
- 算术
- 程序执行
- 对话
- 伦理
- 常识推理
- 多选题问答

数据集结构

数据字段:
- source: 语言模型的输入。
- target: 源输入的正确答案。
- rationale: 解释如何从源得到目标的CoT。
- task: 显示源和目标来自哪个数据集的类别。
训练格式:

{rationale} [RESULT] {target}

数据分割

名称	训练数据量
CoT-Collection	1837928

许可证

许可证: cc-by-4.0

AI搜集汇总

数据集介绍

构建方式

CoT-Collection数据集的构建基于Flan Collection中的1060个任务，通过精心设计，旨在增强语言模型的Chain-of-Thought（CoT）能力。该数据集包含了184万条经过CoT增强的训练样本，每条样本均包含输入文本、目标答案以及解释如何从输入推导出目标答案的CoT。这种结构化的数据设计使得模型在微调过程中能够更好地理解和生成复杂的推理链条。

特点

CoT-Collection数据集的主要特点在于其大规模的CoT增强样本，这些样本覆盖了多种任务类别，包括自然语言推理、问答系统、科学问题、伦理推理等。此外，数据集还提供了多语言版本，进一步扩展了其应用范围。实验结果表明，使用该数据集进行微调能够显著提升模型的零样本和少样本学习能力。

使用方法

使用CoT-Collection数据集时，用户可以通过提供的输入文本、目标答案和CoT进行模型微调，以增强模型的推理能力。数据集的结构化设计使得模型能够学习如何生成合理的推理链条，从而在实际应用中表现更为出色。此外，数据集还支持多语言版本，用户可以根据需求选择适合的语言进行训练和评估。

背景与挑战

背景概述

近年来，随着自然语言处理技术的迅猛发展，语言模型在生成复杂推理链（Chain-of-Thought, CoT）方面展现出显著潜力。然而，小型语言模型在这一能力上仍显不足。为填补这一空白，韩国科学技术院（KAIST）的研究团队于2023年创建了CoT-Collection数据集，旨在通过微调使小型语言模型具备生成CoT的能力。该数据集包含了184万条经过CoT增强的样本，涵盖了从Flan Collection中精选的1060个任务，涉及自然语言推理、常识推理、科学等多个领域。这一数据集的推出，不仅提升了模型在零样本和少样本学习中的表现，还为语言模型的进一步研究提供了宝贵的资源。

当前挑战

尽管CoT-Collection数据集在提升语言模型推理能力方面取得了显著成效，但其构建过程中仍面临诸多挑战。首先，如何从海量数据中筛选出高质量的CoT样本，确保其能够有效引导模型生成合理的推理链，是一个复杂且耗时的任务。其次，数据集的多语言版本虽然提供了更广泛的应用场景，但也增加了语言多样性带来的标注和一致性问题。此外，如何在保持数据集规模的同时，确保每个任务的样本分布均衡，避免模型在某些任务上过度拟合，也是一项亟待解决的难题。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效果提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，kaist-ai/CoT-Collection数据集的经典使用场景主要集中在提升语言模型的推理能力。通过该数据集，研究者可以对模型进行微调，使其能够生成链式思维（Chain-of-Thought, CoT），从而在复杂任务中表现出更强的推理和解释能力。这种微调不仅提高了模型在零样本学习（zero-shot learning）中的表现，还为少样本学习（few-shot learning）提供了更坚实的基础。

解决学术问题

kaist-ai/CoT-Collection数据集解决了在自然语言处理领域中，小型语言模型在生成链式思维方面的不足。传统上，大型专有语言模型能够通过提示生成链式思维，而小型模型则难以实现这一能力。该数据集通过提供丰富的链式思维样本，使得小型模型在经过微调后也能具备生成链式思维的能力，从而提升了其在复杂任务中的表现，具有重要的学术研究意义。

衍生相关工作

kaist-ai/CoT-Collection数据集的发布催生了一系列相关研究工作。例如，有研究者利用该数据集开发了多语言版本的链式思维数据集，进一步扩展了其应用范围。此外，还有研究聚焦于如何优化链式思维的生成过程，以提高模型的推理效率和准确性。这些衍生工作不仅丰富了链式思维的研究领域，也为实际应用提供了更多可能性。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集