five

kaist-ai/Multilingual-CoT-Collection

收藏
Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kaist-ai/Multilingual-CoT-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual CoT Collection 是一个旨在通过微调语言模型来生成Chain-of-Thought(CoT)能力的数据集。该数据集包含了1060个任务,涵盖了多种自然语言处理任务,如自然语言推理、问答、科学、算术等。数据集提供了1837928个训练样本,支持英语语言。每个样本包含source、target、rationale和task四个部分。实验结果表明,使用该数据集进行微调可以提高零样本学习和少样本学习的性能。

Multilingual CoT Collection 是一个旨在通过微调语言模型来生成Chain-of-Thought(CoT)能力的数据集。该数据集包含了1060个任务,涵盖了多种自然语言处理任务,如自然语言推理、问答、科学、算术等。数据集提供了1837928个训练样本,支持英语语言。每个样本包含source、target、rationale和task四个部分。实验结果表明,使用该数据集进行微调可以提高零样本学习和少样本学习的性能。
提供机构:
kaist-ai
原始信息汇总

数据集概述

数据集名称

Multilingual CoT Collection

数据集描述

  • 目的: 旨在诱导多语言语言模型具备Chain-of-Thought (CoT)能力。
  • 规模: 包含1.84百万个Chain-of-Thoughts,覆盖1060个任务。
  • 效果: 通过在CoT Collection上进行微调,模型在零样本学习和少样本学习中表现更佳。

支持的任务

  • 自然语言推理
  • 抽取式问答
  • 闭书问答
  • 科学
  • 毒性分类
  • 算术
  • 程序执行
  • 对话
  • 伦理
  • 常识推理
  • 多选题问答

语言

  • 英语

数据集结构

  • source: 输入给语言模型的内容。
  • target: 源内容的正确答案。
  • rationale: 解释如何从源内容推导出目标内容的Chain of Thought。
  • task: 显示源内容和目标内容来自哪个数据集的类别。

数据分割

  • 训练集: 1837928个样本

许可证

  • cc-by-4.0

配置文件

  • fr: "./data/CoT_collection_fr.json"
  • ja: "./data/CoT_collection_ja.json"
  • ko: "./data/CoT_collection_ko.json"
  • ru: "./data/CoT_collection_ru.json"
  • zh: "./data/CoT_collection_zh.json"

引用信息

@article{kim2023cot, title={The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning}, author={Kim, Seungone and Joo, Se June and Kim, Doyoung and Jang, Joel and Ye, Seonghyeon and Shin, Jamin and Seo, Minjoon}, journal={arXiv preprint arXiv:2305.14045}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,为提升多语言模型的推理能力,Multilingual-CoT-Collection数据集应运而生。该数据集基于Flan Collection中的1060项任务,通过精心设计的流程,生成了184万条链式思维(Chain-of-Thought)增强样本。构建过程中,研究人员为每个任务输入(source)匹配了标准答案(target)及解释性推理路径(rationale),形成了结构化的三元组数据。这一过程旨在将复杂的推理步骤显式化,为模型提供可学习的思维范例,从而弥补小型语言模型在生成链式思维方面的不足。
特点
该数据集的核心特点在于其广泛的多语言覆盖与任务多样性。它涵盖了包括自然语言推理、问答、科学、算术、伦理等在内的11个主要类别,确保了模型能在多领域中获得泛化能力。数据集以英语为基础,同时提供了法语、日语、韩语、俄语和中文的专门配置,支持跨语言的知识迁移与推理。每条数据均包含清晰的输入、目标答案及推理链,这种结构化设计不仅促进了模型对因果关系的理解,也为零样本和少样本学习提供了高质量的微调基础。
使用方法
使用该数据集时,通常遵循微调与评估相结合的流程。在训练阶段,模型被引导生成包含推理链和答案的特定格式文本,即先输出rationale,后接[RESULT]标记,再输出target。这种格式强制模型学习分步推理的过程。评估时,则解析模型预测中[RESULT]之后的部分作为最终答案,以此衡量其推理准确性。数据集适用于文本生成与分类任务,可直接用于多语言模型的微调,以提升其在零样本场景下的表现,或作为少样本学习的强基线模型。
背景与挑战
背景概述
随着大型语言模型在推理任务中展现出卓越性能,如何提升中小规模模型的链式思维(Chain-of-Thought)能力成为自然语言处理领域的关键议题。2023年,韩国科学技术院(KAIST)的研究团队发布了Multilingual-CoT-Collection数据集,旨在通过微调赋予多语言模型生成推理链条的能力。该数据集基于Flan Collection的1060项任务构建,覆盖自然语言推理、科学问答、常识推理等多个范畴,共包含约184万条增强后的链式思维样本。其核心研究在于探索通过监督微调,使模型在零样本和少样本学习场景下获得更优的推理性能,为多语言场景下的复杂问题求解提供了新的数据基础。
当前挑战
该数据集致力于应对多语言环境下复杂推理任务的建模挑战,其核心问题在于如何使中小规模语言模型具备生成连贯、逻辑严密的推理链条的能力。在构建过程中,研究团队需克服多重困难:一是需从广泛的Flan Collection任务中筛选并适配1060项任务,确保数据多样性与质量平衡;二是为每条样本人工构建或验证链式思维内容,保证推理步骤的准确性与可解释性;三是将英语原数据扩展至法语、日语、韩语、俄语及中文等多语言版本,涉及跨语言语义对齐与文化语境适配的复杂性。这些挑战共同塑造了数据集的构建深度与应用广度。
常用场景
经典使用场景
在自然语言处理领域,链式思维推理能力的引入已成为提升模型逻辑演绎的关键路径。Multilingual-CoT-Collection数据集通过提供覆盖1060项任务的184万条链式思维标注数据,为多语言语言模型的微调提供了丰富资源。该数据集最经典的使用场景在于,研究者可基于其进行监督式微调,使模型学会生成连贯的推理步骤,从而在零样本或少样本设置下,显著提升模型在复杂推理任务中的表现。
实际应用
在实际应用层面,该数据集支撑了多语言智能助手、教育问答系统及跨语言知识推理平台的开发。例如,在构建多语言客服机器人时,基于该数据集微调的模型能够生成清晰的决策依据,提升对话的逻辑性与可信度。同时,在科学问答或伦理判断等专业领域,模型可借助链式思维输出更严谨的答案,满足高可靠性应用的需求。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在链式思维的可迁移性与多语言泛化方面。例如,基于其构建的微调框架被应用于提升模型在算术推理、常识问答等任务上的跨语言性能。相关研究进一步探索了思维链与模型规模、任务多样性间的相互作用,推动了链式思维自动化生成与评估方法的发展,为后续多模态推理数据集的构建提供了范式参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作