five

kaist-ai/CoT-Collection|链式思考数据集|语言模型数据集

收藏
hugging_face2023-10-14 更新2024-03-04 收录
链式思考
语言模型
下载链接:
https://hf-mirror.com/datasets/kaist-ai/CoT-Collection
下载链接
链接失效反馈
资源简介:
CoT Collection数据集旨在通过微调语言模型来生成Chain-of-Thoughts(CoT),从而提升零样本和少样本学习的能力。该数据集包含1060个任务,覆盖了多种自然语言处理任务类别,如自然语言推理、问答、科学、算术等。数据集的结构包括输入、目标答案、推理链和任务类别。数据集的规模为1837928条训练数据。

CoT Collection数据集旨在通过微调语言模型来生成Chain-of-Thoughts(CoT),从而提升零样本和少样本学习的能力。该数据集包含1060个任务,覆盖了多种自然语言处理任务类别,如自然语言推理、问答、科学、算术等。数据集的结构包括输入、目标答案、推理链和任务类别。数据集的规模为1837928条训练数据。
提供机构:
kaist-ai
原始信息汇总

数据集概述

数据集描述

  • 名称: CoT Collection
  • 目的: 旨在诱导语言模型具备Chain-of-Thought (CoT)能力。
  • 数据量: 1.84百万条CoT数据,覆盖1060个任务。
  • 语言: 英语
  • 版本: 提供多语言版本,链接为Multilingual-CoT-Collection

支持的任务和分类

  • 任务数量: 1060个任务,选自Flan Collection。
  • 分类:
    • 自然语言推理
    • 抽取式问答
    • 闭书问答
    • 科学
    • 毒性分类
    • 算术
    • 程序执行
    • 对话
    • 伦理
    • 常识推理
    • 多选题问答

数据集结构

  • 数据字段:

    • source: 语言模型的输入。
    • target: 源输入的正确答案。
    • rationale: 解释如何从源得到目标的CoT。
    • task: 显示源和目标来自哪个数据集的类别。
  • 训练格式:

    {rationale} [RESULT] {target}

数据分割

名称 训练数据量
CoT-Collection 1837928

许可证

  • 许可证: cc-by-4.0
AI搜集汇总
数据集介绍
main_image_url
构建方式
CoT-Collection数据集的构建基于Flan Collection中的1060个任务,通过精心设计,旨在增强语言模型的Chain-of-Thought(CoT)能力。该数据集包含了184万条经过CoT增强的训练样本,每条样本均包含输入文本、目标答案以及解释如何从输入推导出目标答案的CoT。这种结构化的数据设计使得模型在微调过程中能够更好地理解和生成复杂的推理链条。
特点
CoT-Collection数据集的主要特点在于其大规模的CoT增强样本,这些样本覆盖了多种任务类别,包括自然语言推理、问答系统、科学问题、伦理推理等。此外,数据集还提供了多语言版本,进一步扩展了其应用范围。实验结果表明,使用该数据集进行微调能够显著提升模型的零样本和少样本学习能力。
使用方法
使用CoT-Collection数据集时,用户可以通过提供的输入文本、目标答案和CoT进行模型微调,以增强模型的推理能力。数据集的结构化设计使得模型能够学习如何生成合理的推理链条,从而在实际应用中表现更为出色。此外,数据集还支持多语言版本,用户可以根据需求选择适合的语言进行训练和评估。
背景与挑战
背景概述
近年来,随着自然语言处理技术的迅猛发展,语言模型在生成复杂推理链(Chain-of-Thought, CoT)方面展现出显著潜力。然而,小型语言模型在这一能力上仍显不足。为填补这一空白,韩国科学技术院(KAIST)的研究团队于2023年创建了CoT-Collection数据集,旨在通过微调使小型语言模型具备生成CoT的能力。该数据集包含了184万条经过CoT增强的样本,涵盖了从Flan Collection中精选的1060个任务,涉及自然语言推理、常识推理、科学等多个领域。这一数据集的推出,不仅提升了模型在零样本和少样本学习中的表现,还为语言模型的进一步研究提供了宝贵的资源。
当前挑战
尽管CoT-Collection数据集在提升语言模型推理能力方面取得了显著成效,但其构建过程中仍面临诸多挑战。首先,如何从海量数据中筛选出高质量的CoT样本,确保其能够有效引导模型生成合理的推理链,是一个复杂且耗时的任务。其次,数据集的多语言版本虽然提供了更广泛的应用场景,但也增加了语言多样性带来的标注和一致性问题。此外,如何在保持数据集规模的同时,确保每个任务的样本分布均衡,避免模型在某些任务上过度拟合,也是一项亟待解决的难题。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效果提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,kaist-ai/CoT-Collection数据集的经典使用场景主要集中在提升语言模型的推理能力。通过该数据集,研究者可以对模型进行微调,使其能够生成链式思维(Chain-of-Thought, CoT),从而在复杂任务中表现出更强的推理和解释能力。这种微调不仅提高了模型在零样本学习(zero-shot learning)中的表现,还为少样本学习(few-shot learning)提供了更坚实的基础。
解决学术问题
kaist-ai/CoT-Collection数据集解决了在自然语言处理领域中,小型语言模型在生成链式思维方面的不足。传统上,大型专有语言模型能够通过提示生成链式思维,而小型模型则难以实现这一能力。该数据集通过提供丰富的链式思维样本,使得小型模型在经过微调后也能具备生成链式思维的能力,从而提升了其在复杂任务中的表现,具有重要的学术研究意义。
衍生相关工作
kaist-ai/CoT-Collection数据集的发布催生了一系列相关研究工作。例如,有研究者利用该数据集开发了多语言版本的链式思维数据集,进一步扩展了其应用范围。此外,还有研究聚焦于如何优化链式思维的生成过程,以提高模型的推理效率和准确性。这些衍生工作不仅丰富了链式思维的研究领域,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

BTCV

BTCV(Beyond the Cranial Vault)数据集是一个用于医学图像分割的公开数据集,主要包含30个病例的CT扫描图像,涵盖了13个不同的器官和组织。该数据集旨在促进医学图像分割算法的发展和评估。

www.synapse.org 收录