Cuckoo 数据集系列

github2025-03-08 更新2025-03-09 收录

下载链接：

https://github.com/KomeijiForce/Cuckoo

下载链接

链接失效反馈

官方服务：

资源简介：

Cuckoo 数据集系列包括Cuckoo-C4、Cuckoo-C4-Instruct、Cuckoo-C4-Rainbow和Cuckoo-C4-Super-Rainbow等，它们是从不同来源和任务中转换或组合而来的next tokens extraction (NTE) 实例。

库科（Cuckoo）数据集系列涵盖Cuckoo-C4、Cuckoo-C4-Instruct、Cuckoo-C4-Rainbow与Cuckoo-C4-Super-Rainbow等成员，所有成员均为从不同来源与任务中转换或组合得到的下一个Token提取（next tokens extraction, NTE）实例。

创建时间：

2025-02-17

原始信息汇总

Cuckoo 数据集概述

数据集简介

Cuckoo 是一个模仿大型语言模型（LLM）的下一个标记预测范式的小型（0.3B）信息提取（IE）模型。它通过在给定输入上下文中标记来预测下一个标记，而不是从词汇表中检索。

数据集版本

Cuckoo-C4: 基于 C4 数据集预训练的版本。
Cuckoo-C4-Instruct: 结合 Cuckoo-C4 和 TuluV3 数据集的版本。
Cuckoo-C4-Rainbow: 结合 Cuckoo-C4-Instruct 和多个 NER 数据集的版本。
Cuckoo-C4-Super-Rainbow: 结合 Cuckoo-C4-Rainbow 和更多数据集的版本，用于提升性能。

预训练资源

C4 (1M Split)
TuluV3
Rainbow Cuckoo
Super Rainbow Cuckoo

性能展示

Cuckoo 在多个 IE 任务上展示了卓越的性能，例如在 CoNLL2003、BioNLP2004 等数据集上取得了较高的 F1 分数。Super Rainbow Cuckoo 在某些任务上达到了超过 80% 的 F1 分数。

快速体验

用户可以通过加载预训练模型和分词器，定义提取函数，然后调用该函数来快速体验 Cuckoo 在下一个标记提取任务上的能力。

少样本适应

Cuckoo 模型支持在少样本情况下对特定任务进行适应，例如通过在 CoNLL2003 或 SQuAD 数据集上进行微调。

自定义任务

用户可以通过创建自己的 Jsonlines 文件来微调 Cuckoo 模型，以适应自定义任务。

引用

@article{DBLP:journals/corr/abs-2502-11275, author = {Letian Peng and Zilong Wang and Feng Yao and Jingbo Shang}, title = {Cuckoo: An {IE} Free Rider Hatched by Massive Nutrition in {LLM}s Nest}, journal = {CoRR}, volume = {abs/2502.11275}, year = {2025}, url = {https://doi.org/10.48550/arXiv.2502.11275}, doi = {10.48550/arXiv.2502.11275}, eprinttype = {arXiv}, eprint = {2502.11275}, timestamp = {Mon, 17 Feb 2025 19:32:20 +0000}, biburl = {https://dblp.org/rec/journals/corr/abs-2502-11275.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

Cuckoo 数据集系列是通过模仿大型语言模型（LLM）的下一个标记预测范式构建的。该数据集采用了大规模的营养补给策略，利用LLM的数据进行预训练，包括从C4和TuluV3等数据集中转换出的100M个下一个标记提取（NTE）实例。此外，还包括了多个命名实体识别（NER）数据集、WizardLM数据集、多项选择题问答数据集以及MMLU、SQuAD、DROP、MNLI、SNLI等，以增强模型的功能。

特点

Cuckoo 数据集系列的特点在于其创新的预训练方式，能够利用任何文本资源进行自我提升，特别是能够免费利用为LLM准备的精选数据。该数据集展现了显著的性能优势，例如在仅进行少量微调的情况下，性能超过8B Llama-3-Instruct模型，且效率提高20倍。此外，Cuckoo数据集系列提供了不同层次的预训练模型，用户可以根据需求选择合适的模型。

使用方法

使用Cuckoo数据集系列，用户可以加载预训练模型和分词器，定义下一个标记提取函数，然后通过调用该函数在给定文本中进行实体和关系的提取。此外，Cuckoo模型还支持零样本提取和少样本适应，用户可以通过简单的命令行操作对模型进行微调，以适应特定的下游任务。数据集的使用方法在官方GitHub页面上有详细的说明和示例代码。

背景与挑战

背景概述

Cuckoo 数据集系列是在大型语言模型（LLM）的背景下创建的，由彭乐田、王子龙、姚峰和商静波等研究人员于2025年提出。该数据集旨在通过模仿LLM的下一个标记预测范式，实现信息抽取（IE）任务。Cuckoo模型能够利用任何文本资源进行自我提升，特别是能够免费利用为LLM精心策划的数据集。该数据集系列包括Cuckoo-C4、Cuckoo-C4-Instruct、Cuckoo-C4-Rainbow以及Cuckoo-C4-Super-Rainbow等不同版本，每个版本都在不同的数据集上进行了预训练，以提升其信息抽取的性能。

当前挑战

Cuckoo数据集在构建过程中遇到的挑战主要包括：1）如何有效模仿LLM的下一个标记预测范式，以实现高效的信息抽取；2）如何在有限的资源下，利用大规模数据集进行有效预训练；3）如何设计高效的下游任务适配策略，以实现在特定任务上的性能提升。在解决的领域问题方面，Cuckoo数据集旨在解决传统IE任务中的挑战，如实体识别、关系抽取等，同时也在如何将IE任务与LLM的能力结合方面提出了新的挑战。

常用场景

经典使用场景

Cuckoo数据集系列，以其独特的下一代标记预测范式，成为了信息抽取领域的研究者们的首选工具。该数据集模仿大型语言模型的标记预测方式，通过对输入上下文进行标记来预测下一个标记，其经典使用场景在于处理自然语言处理中的实体识别和关系抽取任务，尤其是在零样本或少样本学习情境下，展现出极高的适应效率。

解决学术问题

Cuckoo数据集解决了传统信息抽取模型依赖大量标注数据的问题，通过其创新的预测范式，实现了在仅有少量样本的情况下的高效模型训练。这对于降低标注成本、提高模型适应不同领域的能力具有重要意义，极大地推动了学术研究中信息抽取任务的进展。

衍生相关工作

基于Cuckoo数据集的研究成果丰富，衍生出了许多相关工作。这些工作不仅涉及对Cuckoo模型本身的改进和优化，还包括将其应用于不同的任务和领域，如跨语言信息抽取、小样本学习等，进一步扩展了Cuckoo数据集的影响力和应用范围。

以上内容由遇见数据集搜集并总结生成