kaist-ai/Multilingual-CoT-Collection

Name: kaist-ai/Multilingual-CoT-Collection
Creator: kaist-ai
Published: 2023-10-14 15:00:43
License: 暂无描述

Hugging Face2023-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kaist-ai/Multilingual-CoT-Collection

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual CoT Collection 是一个旨在通过微调语言模型来生成Chain-of-Thought（CoT）能力的数据集。该数据集包含了1060个任务，涵盖了多种自然语言处理任务，如自然语言推理、问答、科学、算术等。数据集提供了1837928个训练样本，支持英语语言。每个样本包含source、target、rationale和task四个部分。实验结果表明，使用该数据集进行微调可以提高零样本学习和少样本学习的性能。

提供机构：

kaist-ai

原始信息汇总

数据集概述

数据集名称

Multilingual CoT Collection

数据集描述

目的: 旨在诱导多语言语言模型具备Chain-of-Thought (CoT)能力。
规模: 包含1.84百万个Chain-of-Thoughts，覆盖1060个任务。
效果: 通过在CoT Collection上进行微调，模型在零样本学习和少样本学习中表现更佳。

支持的任务

自然语言推理
抽取式问答
闭书问答
科学
毒性分类
算术
程序执行
对话
伦理
常识推理
多选题问答

语言

英语

数据集结构

source: 输入给语言模型的内容。
target: 源内容的正确答案。
rationale: 解释如何从源内容推导出目标内容的Chain of Thought。
task: 显示源内容和目标内容来自哪个数据集的类别。

数据分割

训练集: 1837928个样本

许可证

cc-by-4.0

配置文件

fr: "./data/CoT_collection_fr.json"
ja: "./data/CoT_collection_ja.json"
ko: "./data/CoT_collection_ko.json"
ru: "./data/CoT_collection_ru.json"
zh: "./data/CoT_collection_zh.json"

引用信息

@article{kim2023cot, title={The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning}, author={Kim, Seungone and Joo, Se June and Kim, Doyoung and Jang, Joel and Ye, Seonghyeon and Shin, Jamin and Seo, Minjoon}, journal={arXiv preprint arXiv:2305.14045}, year={2023} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，为提升多语言模型的推理能力，Multilingual-CoT-Collection数据集应运而生。该数据集基于Flan Collection中的1060项任务，通过精心设计的流程，生成了184万条链式思维（Chain-of-Thought）增强样本。构建过程中，研究人员为每个任务输入（source）匹配了标准答案（target）及解释性推理路径（rationale），形成了结构化的三元组数据。这一过程旨在将复杂的推理步骤显式化，为模型提供可学习的思维范例，从而弥补小型语言模型在生成链式思维方面的不足。

特点

该数据集的核心特点在于其广泛的多语言覆盖与任务多样性。它涵盖了包括自然语言推理、问答、科学、算术、伦理等在内的11个主要类别，确保了模型能在多领域中获得泛化能力。数据集以英语为基础，同时提供了法语、日语、韩语、俄语和中文的专门配置，支持跨语言的知识迁移与推理。每条数据均包含清晰的输入、目标答案及推理链，这种结构化设计不仅促进了模型对因果关系的理解，也为零样本和少样本学习提供了高质量的微调基础。

使用方法

使用该数据集时，通常遵循微调与评估相结合的流程。在训练阶段，模型被引导生成包含推理链和答案的特定格式文本，即先输出rationale，后接[RESULT]标记，再输出target。这种格式强制模型学习分步推理的过程。评估时，则解析模型预测中[RESULT]之后的部分作为最终答案，以此衡量其推理准确性。数据集适用于文本生成与分类任务，可直接用于多语言模型的微调，以提升其在零样本场景下的表现，或作为少样本学习的强基线模型。

背景与挑战

背景概述

随着大型语言模型在推理任务中展现出卓越性能，如何提升中小规模模型的链式思维（Chain-of-Thought）能力成为自然语言处理领域的关键议题。2023年，韩国科学技术院（KAIST）的研究团队发布了Multilingual-CoT-Collection数据集，旨在通过微调赋予多语言模型生成推理链条的能力。该数据集基于Flan Collection的1060项任务构建，覆盖自然语言推理、科学问答、常识推理等多个范畴，共包含约184万条增强后的链式思维样本。其核心研究在于探索通过监督微调，使模型在零样本和少样本学习场景下获得更优的推理性能，为多语言场景下的复杂问题求解提供了新的数据基础。

当前挑战

该数据集致力于应对多语言环境下复杂推理任务的建模挑战，其核心问题在于如何使中小规模语言模型具备生成连贯、逻辑严密的推理链条的能力。在构建过程中，研究团队需克服多重困难：一是需从广泛的Flan Collection任务中筛选并适配1060项任务，确保数据多样性与质量平衡；二是为每条样本人工构建或验证链式思维内容，保证推理步骤的准确性与可解释性；三是将英语原数据扩展至法语、日语、韩语、俄语及中文等多语言版本，涉及跨语言语义对齐与文化语境适配的复杂性。这些挑战共同塑造了数据集的构建深度与应用广度。

常用场景

经典使用场景

在自然语言处理领域，链式思维推理能力的引入已成为提升模型逻辑演绎的关键路径。Multilingual-CoT-Collection数据集通过提供覆盖1060项任务的184万条链式思维标注数据，为多语言语言模型的微调提供了丰富资源。该数据集最经典的使用场景在于，研究者可基于其进行监督式微调，使模型学会生成连贯的推理步骤，从而在零样本或少样本设置下，显著提升模型在复杂推理任务中的表现。

实际应用

在实际应用层面，该数据集支撑了多语言智能助手、教育问答系统及跨语言知识推理平台的开发。例如，在构建多语言客服机器人时，基于该数据集微调的模型能够生成清晰的决策依据，提升对话的逻辑性与可信度。同时，在科学问答或伦理判断等专业领域，模型可借助链式思维输出更严谨的答案，满足高可靠性应用的需求。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在链式思维的可迁移性与多语言泛化方面。例如，基于其构建的微调框架被应用于提升模型在算术推理、常识问答等任务上的跨语言性能。相关研究进一步探索了思维链与模型规模、任务多样性间的相互作用，推动了链式思维自动化生成与评估方法的发展，为后续多模态推理数据集的构建提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集