kaist-ai/Multilingual-CoT-Collection
收藏Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kaist-ai/Multilingual-CoT-Collection
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual CoT Collection 是一个旨在通过微调语言模型来生成Chain-of-Thought(CoT)能力的数据集。该数据集包含了1060个任务,涵盖了多种自然语言处理任务,如自然语言推理、问答、科学、算术等。数据集提供了1837928个训练样本,支持英语语言。每个样本包含source、target、rationale和task四个部分。实验结果表明,使用该数据集进行微调可以提高零样本学习和少样本学习的性能。
Multilingual CoT Collection 是一个旨在通过微调语言模型来生成Chain-of-Thought(CoT)能力的数据集。该数据集包含了1060个任务,涵盖了多种自然语言处理任务,如自然语言推理、问答、科学、算术等。数据集提供了1837928个训练样本,支持英语语言。每个样本包含source、target、rationale和task四个部分。实验结果表明,使用该数据集进行微调可以提高零样本学习和少样本学习的性能。
提供机构:
kaist-ai
原始信息汇总
数据集概述
数据集名称
Multilingual CoT Collection
数据集描述
- 目的: 旨在诱导多语言语言模型具备Chain-of-Thought (CoT)能力。
- 规模: 包含1.84百万个Chain-of-Thoughts,覆盖1060个任务。
- 效果: 通过在CoT Collection上进行微调,模型在零样本学习和少样本学习中表现更佳。
支持的任务
- 自然语言推理
- 抽取式问答
- 闭书问答
- 科学
- 毒性分类
- 算术
- 程序执行
- 对话
- 伦理
- 常识推理
- 多选题问答
语言
- 英语
数据集结构
- source: 输入给语言模型的内容。
- target: 源内容的正确答案。
- rationale: 解释如何从源内容推导出目标内容的Chain of Thought。
- task: 显示源内容和目标内容来自哪个数据集的类别。
数据分割
- 训练集: 1837928个样本
许可证
- cc-by-4.0
配置文件
- fr: "./data/CoT_collection_fr.json"
- ja: "./data/CoT_collection_ja.json"
- ko: "./data/CoT_collection_ko.json"
- ru: "./data/CoT_collection_ru.json"
- zh: "./data/CoT_collection_zh.json"
引用信息
@article{kim2023cot, title={The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning}, author={Kim, Seungone and Joo, Se June and Kim, Doyoung and Jang, Joel and Ye, Seonghyeon and Shin, Jamin and Seo, Minjoon}, journal={arXiv preprint arXiv:2305.14045}, year={2023} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,为提升多语言模型的推理能力,Multilingual-CoT-Collection数据集应运而生。该数据集基于Flan Collection中的1060项任务,通过精心设计的流程,生成了184万条链式思维(Chain-of-Thought)增强样本。构建过程中,研究人员为每个任务输入(source)匹配了标准答案(target)及解释性推理路径(rationale),形成了结构化的三元组数据。这一过程旨在将复杂的推理步骤显式化,为模型提供可学习的思维范例,从而弥补小型语言模型在生成链式思维方面的不足。
特点
该数据集的核心特点在于其广泛的多语言覆盖与任务多样性。它涵盖了包括自然语言推理、问答、科学、算术、伦理等在内的11个主要类别,确保了模型能在多领域中获得泛化能力。数据集以英语为基础,同时提供了法语、日语、韩语、俄语和中文的专门配置,支持跨语言的知识迁移与推理。每条数据均包含清晰的输入、目标答案及推理链,这种结构化设计不仅促进了模型对因果关系的理解,也为零样本和少样本学习提供了高质量的微调基础。
使用方法
使用该数据集时,通常遵循微调与评估相结合的流程。在训练阶段,模型被引导生成包含推理链和答案的特定格式文本,即先输出rationale,后接[RESULT]标记,再输出target。这种格式强制模型学习分步推理的过程。评估时,则解析模型预测中[RESULT]之后的部分作为最终答案,以此衡量其推理准确性。数据集适用于文本生成与分类任务,可直接用于多语言模型的微调,以提升其在零样本场景下的表现,或作为少样本学习的强基线模型。
背景与挑战
背景概述
随着大型语言模型在推理任务中展现出卓越性能,如何提升中小规模模型的链式思维(Chain-of-Thought)能力成为自然语言处理领域的关键议题。2023年,韩国科学技术院(KAIST)的研究团队发布了Multilingual-CoT-Collection数据集,旨在通过微调赋予多语言模型生成推理链条的能力。该数据集基于Flan Collection的1060项任务构建,覆盖自然语言推理、科学问答、常识推理等多个范畴,共包含约184万条增强后的链式思维样本。其核心研究在于探索通过监督微调,使模型在零样本和少样本学习场景下获得更优的推理性能,为多语言场景下的复杂问题求解提供了新的数据基础。
当前挑战
该数据集致力于应对多语言环境下复杂推理任务的建模挑战,其核心问题在于如何使中小规模语言模型具备生成连贯、逻辑严密的推理链条的能力。在构建过程中,研究团队需克服多重困难:一是需从广泛的Flan Collection任务中筛选并适配1060项任务,确保数据多样性与质量平衡;二是为每条样本人工构建或验证链式思维内容,保证推理步骤的准确性与可解释性;三是将英语原数据扩展至法语、日语、韩语、俄语及中文等多语言版本,涉及跨语言语义对齐与文化语境适配的复杂性。这些挑战共同塑造了数据集的构建深度与应用广度。
常用场景
经典使用场景
在自然语言处理领域,链式思维推理能力的引入已成为提升模型逻辑演绎的关键路径。Multilingual-CoT-Collection数据集通过提供覆盖1060项任务的184万条链式思维标注数据,为多语言语言模型的微调提供了丰富资源。该数据集最经典的使用场景在于,研究者可基于其进行监督式微调,使模型学会生成连贯的推理步骤,从而在零样本或少样本设置下,显著提升模型在复杂推理任务中的表现。
实际应用
在实际应用层面,该数据集支撑了多语言智能助手、教育问答系统及跨语言知识推理平台的开发。例如,在构建多语言客服机器人时,基于该数据集微调的模型能够生成清晰的决策依据,提升对话的逻辑性与可信度。同时,在科学问答或伦理判断等专业领域,模型可借助链式思维输出更严谨的答案,满足高可靠性应用的需求。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在链式思维的可迁移性与多语言泛化方面。例如,基于其构建的微调框架被应用于提升模型在算术推理、常识问答等任务上的跨语言性能。相关研究进一步探索了思维链与模型规模、任务多样性间的相互作用,推动了链式思维自动化生成与评估方法的发展,为后续多模态推理数据集的构建提供了范式参考。
以上内容由遇见数据集搜集并总结生成



